一 个 运行 缓慢 的 应 用 程序 有 时 会 让 人 抓 狂 ， 此 时 需要 在 问题 诊断 的 基础 上 进行 性 能 调整 。 本 书 将 帮助 你 一 步 步 地 解决 这 个 难 
， 告 诉 你 如 何 友 现 并 修复 性 能 问题 。 


阅 


本 书 第 1 章 介绍 了 耕 找 性 能 问题 的 基本 方法 ， 之 后 用 奋 干 章 分 别 介绍 了 各 种 工具 ， 涉 及 的 性 能 问题 包括 系统 CPU、 用 户 
CPU、 内 和 存 、 网 络 MO 以 及 磁盘 MO 等 多 个 方面 。 在 介绍 各 种 工具 时 ， 除 了 介绍 工具 的 度量 对 象 、 使 用 方法 和 相关 参数 选项 之 
外 ， 还 附 上 了 一 些 例子 演示 其 用 法 。 如 果 一 个 工具 可 以 用 于 多 种 问题 ， 那 么 将 会 在 相 天 的 每 一 章 中 都 看 到 已。 第 10 章 到 第 12 重 
给 出 了 纪 合 性 的 、 面 同 实 际 问题 的 案例 ， 有 助 于 读者 在 目 己 解 决 问 题 时 选择 和 使 用 这 些 工具 。 


本 书 组 织 结构 清晰 明了 ， 读 者 可 以 根据 目 己 的 经 验 水 平 选 择 所 需 章 节 阅 读 。 本 书 不 仅 能 让 读者 学 习 到 性 能 调整 的 各 个 方面 ， 
还 可 以 作为 性 能 工具 手册 使 用 。 


在 此 感谢 机 械 工 业 出 版 社 华 章 公 司 的 编辑 朱 动 和 唐 晓 琳 ， 感 谢 她 们 耐心 细致 的 工作 ， 以 及 在 翻译 过 程 中 给 予 我 们 的 文 持 和 帮 
助 。 


在 翻译 中 我 们 秉持 认真 细致 的 态度 ， 但 是 由 于 能 力 所 限 ， 还 是 会 存 企 错误 与 跌 漏 ， 希 望 广大 读者 批评 指正 。 


为 什么 性 能 很 重要 ? 


如 果 你 曾经 坐等 计算 机 完成 工作 (同时 还 伴随 着 融 打 泉 面 、 诅 叶 和 好 奇 : “ 啥 事 儿 要 伦 这 么 长 的 时 间 ”“”) ， 你 束 会 知道 有 
个 速度 快 且 性 能 优化 民 好 的 计算 机 系统 是 多 么 重要 。 尽 管 不 是 所 有 的 性 能 问题 都 能 轻易 得 到 解决 ， 但 是 ， 了 解 系统 工作 缓慢 的 原 
因 ， 融 意味 着 有 可 能 采用 不 同 的 解决 万 法 : 修复 软件 问题 ， 升 级 慢 速 硬件 ， 或 者 干 胞 直接 把 计算 机 扔 出 窗外 。 插 运 的 是 ， 大 多 数 
操作 系统 ， 尤 其 是 Linux， 都 提供 了 工具 用 于 检测 机 器 运行 缓慢 的 原因 。 使 用 一 些 基 础 工具 ， 残 可 以 确定 系统 中 哪里 速度 慢 ， 并 


修复 那些 运行 效率 低 的 部 分 。 


虽然 终 跨 用 户 非 单 讨厌 速度 慢 的 系统 ， 但 对 于 应 用 程序 开 友 者 而 言 ， 他 们 有 着 更 重要 的 理由 对 其 程序 进行 性 能 调 优 : 程序 能 
够 在 多 个 系统 上 局 效 运行 。 如 果 你 编写 的 程序 运行 缓慢 ， 又 需要 快速 的 计算 机 ， 那 么 你 融会 排除 挥 那些 拥有 慢 速 计算 机 的 用 己 。 
毕竟 ， 并 非 所 有 人 都 具备 最 新 的 硬件 。 性 能 展 好 的 应 用 程序 能 被 更 多 的 用 户 使 用 ， 从 而 市 来 更 大 的 潜在 用 户 群 。 另 外 ， 如 果 潜 在 
用 尸 必须 在 两 个 具有 相似 功能 的 不 同 应 用 程序 中 进行 选择 ， 他 们 通常 会 选择 运行 更 快 或 效率 更 高 的 那 一 个 。 最 后 ， 长 期 使 用 的 应 
用 程序 很 可 能 会 经 过 几 轮 优化 ， 以 便 适 应 不 同 的 用 尸 需 求 ， 因 此 ， 关 键 是 了 解 如 何 追 路 性 能 问题 。 


如 果 你 是 系统 管理 员 ， 那 么 对 系统 用 户 来 说 ， 你 就 有 责任 使 系统 在 运行 时 保持 适当 的 性 能 水 平 。 若 系统 运行 缓慢， 用 户 束 会 
抱 息 。 如 果 你 能 迅速 找到 并 解决 问题 ， 他 们 就 会 停止 抱 息 。 还 有 让 人 高 兴 的 是 ， 如 果 你 能 通过 调整 应 用 程序 或 操作 系统 来 解决 问 
题 (从 而 使 他 们 不 用 购买 新 的 硬件 ) ， 那么 公司 的 会 计 束 会 很 开心 。 知 道 如 何 有 效 使 用 性 能 工具 丈 意 味 着 ， 在 性 能 问题 上 需要 论 
费 的 时 | 间 是 有 区 别 的 : 几 天 ， 还 是 几 个 小 时 。 


Linux: 优势 和 劣势 


如 果 你 使 用 Linux， 维 护 它 并 用 其 进行 开 友 ， 你 融会 处 于 一 种 奇特 但 恨 好 的 处 境 中 。 你 能 访问 和 接触 的 源 代码 、 开 有 友 者 和 邮 
件 列表 是 前 所 未 有 的 ， 通常， 这些 邮件 列表 中 会 记录 着 多 年 前 的 设计 决策 。Linux 是 发 现 和 修复 性 能 问题 的 优 展 环境。 与 之 形成 
鲜明 对 比 的 是 专 有 环境 ， 在 这 种 环境 下 ， 很 难 直 接 接触 到 软件 开 友 者 ， 同 时 也 很 难 找 到 大 多 数 设 计 决 策 讨 论 的 书面 记录 ， 而 访问 
源 代码 则 几乎 是 不 可 能 的 。 除 了 是 一 个 高 效 环 境外 ，Linux 还 具备 强大 的 性 能 工具 ， 使 你 能 友 现 并 修复 性 能 问题 。 这 些 工具 可 以 
与 那些 专门 的 工具 相 旭 美 。 


即使 有 着 这 些 令 人 印象 深刻 的 优势 ，Linux 生 人 态 环境 还 是 需要 征服 一 些 挑战 。Linux 性 能 工具 分 散 性 很 强 。 不 同 的 小 组 根据 不 
同 的 目标 开发 工具 ， 其 结果 就 是 ， 这 些 工 具 不 一 定 集中 在 一 个 地 方 。 有 些 工 具 已 经 包含 在 标准 的 Linux 发 行 版 中 ， 如 Red Hat、 
SUSE 和 Debian; 而 有 些 工具 则 分 散在 整个 互联 网 上 。 如 果 你 妾 试 解决 一 个 性 能 问题 ， 首 先 要 做 的 是 了 解 你 需要 的 工具 是 人 否 存 
在， 然后 骨 设 法 找到 它们 。 由 于 没有 哪 一 个 Linux 性 能 工具 能 够 独立 解决 所 有 类 型 的 性 能 问题 ， 因 此 ， 还 必须 了 解 如 何 使 用 多 个 
工具 来 确定 问题 出 在 哪儿 。 这 可 能 需要 点 技巧 ， 但 是 经 验 会 让 它 变 得 容易 些 。 虽 然 大 多 数 党 见 的 万 法 会 有 文档 记录 ， 但 是 Linux 
没有 任何 指 十 来 告诉 你 如 何 整合 性 能 工具 以 实际 解决 问题 。 很 多 工具 或 子 系统 都 有 调整 特定 子 系统 的 信息 ， 但 是 却 没有 说 明 如 何 
将 它们 与 其 他 工具 一 起 使 用 。 许 多 性 能 问题 涉及 系统 的 多 个 部 分 ， 如 果 不 知 道 如 何 同时 使 用 多 个 工具 ， 束 无 法 解决 这 些 间 题 。 
本 书 对 你 有 何 帮 助 ? 

从 本 书 可 以 学 到 很 多 东西 ， 包 括 : 

“ 各 种 性 能 工具 能 测量 什么 。 

“ 怎样 使 用 每 一 种 工具 。 

“ 如 何 将 工具 组 合 起 来 解决 性 能 问题 。 

“ 如 何 从 性 能 欠 佳 的 系统 入 手 ， 查 明 问 题 。 


“ 如 何 利用 学 到 的 方法 来 解决 现实 世界 的 问题 (案例 研究 ) 。 
利用 本 书 提供 的 方法 ， 你 可 以 将 组 织 严 密 的 问题 诊断 说 明 友 送 给 最 初 的 开 友 人 员 。 运 气 好 的 话 ， 他 们 会 帮 你 把 问题 解决 掉 。 
为 什么 要 学 习 使 用 性 能 工具 ? 
为 什么 要 化 精力 去 调整 系统 或 应 用 程序 ? 
` 性 能 良好 的 系统 能 用 更 少 的 资源 完成 更 多 的 工作 。 
性 能 良好 的 应 用 程序 能 在 更 老 旧 的 硬件 上 运行 。 
` 性 能 良好 的 桌面 系统 能 节约 用 户 时 间 。 
` 性 能 良好 的 服务 器 能 为 更 多 用 户 提 供 更 高 质量 的 服务 。 


了 解 如 何 局 效 地 诊断 性 能 问题 ， 融 可 以 用 正确 的 万 法 来 解决 问题 ， 而 不 是 盲目 地 采取 措施 并 希望 它 能 起 作用 。 如 果 你 是 应 用 
程序 开 上 友 者 ， 残 意味 着 你 能 快速 友 现 是 哪 段 代 码 引 友 了 问题 ; 如 果 你 是 系统 管理 员 ， 残 意味 着 你 可 以 找到 系统 的 哪个 部 分 需要 调 
整 或 升级 ， 而 不 用 溪 费 时 间 且 徒 秀 无 功 地 过 试 各 种 解决 方案 ;如 果 你 是 终 闯 用 户 ， 你 残 能 及 现 哪些 应 用 程序 速度 浏 后 ， 并 将 问题 


报告 给 开 上 友 者 (或 者 必要 时 更 新 你 的 硬件 ) 。 


Linux 现 在 正 处 于 十 字 路 口 。 高 效 系统 的 大 部 分 功能 已 经 完成 ， 对 Linux 及 其 应 用 程序 来 说 ， 下 一 步 束 是 调 优 以 便 与 其 他 操作 
系统 的 性 能 进行 竞争 ， 并 超越 它们 。 有 些 性 能 优化 早已 开始 。 例 如 ，SAMBA、Apache 和 TUX Web 服务 器 项 目 已 经 花费 了 大 量 
的 时 间 ， 对 系统 和 代码 进行 调整 和 优化 。 其 他 性 能 优化 〈 如 能 显著 提升 绕 程 性 能 的 本 地 POSIX 续 程 库 (NPTL) ， 以 及 能 改善 应 
用 程序 局 动 时 间 的 对 象 预 链接 ) 正 开 始 被 整合 到 Linux 中 。Linux 提 升 性 能 的 时 机 已 然 成 熟 。 


我 也 能 进行 性 能 调整 吗 ? 


性 能 优化 最 大 的 优点 是 : 你 无 须 了 解 整 个 应 用 程序 或 系统 的 详细 人 信息， 就 可 以 有 效 地 修复 性 能 问题 。 性 能 优化 所 需 的 技术 与 
典型 应 用 程序 开 友 者 的 技术 是 相辅相成 的 。 


你 需要 的 是 细心 和 耐心 。 追 路 并 解决 性 能 问题 与 其 说 需要 的 是 程序 员 ， 还 不 如 说 需要 的 是 侦探 。 友 现 并 修复 这 些 间 题 令 人 兴 
理 。 开 始 的 时 候 ， 系 统 会 很 糟糕 。 但 是 ， 当 你 找到 原因 ， 并 将 其 连 根 撤 挥 后 ， 运 气 好 的 话 ， 系 统 运行 速度 能 达到 原来 的 两 舍 。 完 


三 | 
天 . 


要 达到 完美 ， 融 必须 了 解 强 大 但 有 时 又 频 令 人 迷惑 的 Linux 性 能 工具 。 这 需要 化 些 功夫 ， 但 最 后 你 会 有 友 现 一 切 都 是 值得 的 。 
性 能 工具 能 向 你 展示 超 乎 你 预期 的 应 用 程序 和 系统 的 方 万 面 面 。 


谁 应 该 读 这 本 书 ? 


本 书 帮助 Linux 软 件 开发 人 员 、 系 统管 理 员 和 终端 用 户 利 用 Linux 性 能 工具 在 给 定 系统 中 找 出 性 能 问题 。 初 级 性 能 研究 员 能 学 
习性 能 调查 和 分 析 的 基础 知识 。 中 高 级 性 能 研究 员 ， 尤 其 是 那些 已 具备 其 他 专 有 操作 系统 性 能 经 验 的 ， 能 学 习 那 些 与 他 们 已 经 熟 


悉 的 系统 中 的 命令 等 价 的 Linux 命 令 。 


软件 开 友 人 员 能 学 习 如 何 精 确定 位 引 友 性 能 问题 的 代码 行 。 对 系统 进行 性 能 调 优 的 系统 管理 员 ， 则 能 学 习 能 襄 明 系统 变 慢 原 
因 的 工具 ， 然 后 利用 这 些 信息 调整 系统 。 最 后 ， 终 端 用 尸 (虽然 不 是 本 书 的 主要 对 象 ) 可 以 学 习 必要 的 基本 技术 以 找 出 哪些 应 用 
程序 正在 消耗 系统 资源 。 


本 书 是 如 何 组 织 的 ? 

本 书 向 具备 不 同 程度 经 验 的 读者 教授 如 何 友 现 并 修复 性 能 问题 。 为 了 实现 这 个 目标 ， 读 者 可 以 挑选 本 书 不 同 的 部 分 进行 阅 
读 ， 而 不 必 和 直接 看 完整 本 书 。 

第 1 章 介 绍 查找 性 能 问题 的 基本 方法 。 其 中 包含 一 系列 非 Linux 特 有 的 技巧 和 建议 ， 它 们 已 被 证 明 对 追踪 性 能 问题 是 有 用 
的 。 这 些 指南 是 性 能 问题 查找 的 常用 建议 ， 可 以 用 于 姐 中 任何 类 型 计算 机 系统 的 性 能 问题 。 


第 2 草 到 第 8 草 (本 书 主 要 部 分 ) 覆盖 了 各 种 工具 ， 可 用 于 度量 Linux 系 统 中 不 同 的 性 能 统计 信息 。 这 些 章 解 释 了 不 同 工 具 度 
量 的 对 象 以 及 如 何 调 用 它们 ， 并 为 每 个 工具 提供 了 使 用 示例 。 每 一 章 演 示 的 工具 分 别 度量 了 Linux 系 统 的 不 同 部 分 ， 如 系统 
CPU、 用 户 CPU、 内 和 仓 、 网 络 MO 以 及 磁盘 MO。 如 果 一 种 工具 涉及 多 个 子 系统 ， 它 束 会 出 现在 多 个 章节 中 。 每 章 都 会 介绍 多 个 
工具 ， 但 在 给 定 章节 中 ， 只 会 摘 述 适合 特定 子 系统 的 对 应 的 工具 选项 。 摘 述 格式 如 下 : 


么 。 比 如 ， 有 些 性 能 工具 手册 指明 了 工具 度量 的 事件 ,但 是 却 没有 解释 这 些 事 件 的 含义 。 本 书 则 说 明了 事件 合 义 ， 以 及 事件 与 当 
前 子 系统 的 天 系 。 


3. 示 例 一 一 这 部 分 为 度量 性 能 统计 信息 的 工具 提供 一 个 或 多 个 例子 ， 展 示 了 调用 的 工具 以 及 生成 的 所 有 输出 。 


第 9 章 针 对 Linux， 它 介绍 了 面 对 低 性 能 Linux 系 统 时 要 来 取 的 一 系列 步骤 ， 以 及 如 何 正确 使 用 之 前 摘 述 的 Linux 性 能 工具 来 
查 明 产生 性 能 问题 的 原因 。 如 果 你 想 从 行为 异 单 的 Linux 入 手 ， 仅 仅 只 是 进行 问题 诊断 ， 而 不 想 了 解 工具 的 详情 ， 那 么 这 一 章 融 
是 最 有 用 的 一 草 。 

第 10 章 到 第 12 章 为 案例 研究 ， 将 前 面 章节 摘 述 的 方法 和 工具 结合 起 来 ， 解 决 现 实 世界 的 问题 。 案 例 研 究 突出 了 用 于 友 现 和 
修复 各 类 性 能 问题 的 Linux 性 能 工具 ， 包 括 以 下 几 类 : CPU 密集 型 应 用 程序 ， 延 迟 敏感 型 应 用 程序 ， 以 及 I/O 密 集 型 应 用 程序 。 


第 13 章 对 性 能 工具 进行 了 忌 结 ， 并 展望 了 Linux 性 能 调 优 工具 的 友 展 机 过 。 


本 书 有 两 个 附录 : 附录 A 用 一 个 表格 收录 了 书 中 介绍 的 性 能 工具 ， 给 出 了 每 一 种 工具 最 新 版 本 的 URL， 并 指明 了 每 种 特定 的 
工具 都 由 哪些 Linux 发 行 版 支持 ; 附录 B 说 明了 如 何 安装 oprofile， 该 工具 包含 在 几 个 主要 的 Linux 发 行 版 中 ， 其 功能 强大 ， 但 安 
六 困难 。 
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第 1 章 ”性 能 退路 建议 


没有 远见 和 规划 ， 这 样 解 决 性 能 问题 是 痛 吾 的 。 产 生 问 题 的 原因 一 次 又 一 次 从 所 尖 溜 走 ， 不 仅 滔 费时 间 并 且 让 你 备 感 受挫 。 
但 是 ， 如 果 按 照 正确 的 步骤 ， 束 可 以 把 令 人 泪 形 的 性 能 追 路 转变 为 有 趣 的 侦探 故事 。 每 一 条 信息 都 让 你 更 接近 问题 的 根源 。 人 不 
能 总 是 可 信 的 ， 证 据 将 是 你 唯一 的 朋友 。 当 你 开始 研究 问题 的 时 候 ， 会 遇 到 不 寻 音 的 波折 ， 奶 踩 乙 初 友 现 的 信息 最 后 可 能 会 帮 
你 解决 问题 。 最 棒 的 部 分 区 是 ， 当 你 最 终 隶 住 “ 坏 小 子 ” 并 修复 问题 时 ， 会 感 锡 到 崩 上 腺 素 的 刺激 和 成 就 感 。 


中 | 


如 果 你 从 来 没有 调查 过 性 能 问题 ， 那 么 第 一 步 会 是 决定 性 的 。 不 过 ， 听 从 下 面 几 个 明显 或 隐 星 的 建议 ， 可 以 市 约 时 间 ， 并 按 
照 上 自己 的 方式 来 找 出 性 能 问题 的 原因 。 本 章 目 标 是 提供 一 系列 建议 和 指导 来 帮助 读者 追 路 性 能 问题 。 在 人 研究 系统 或 应 用 程序 出 现 
的 问题 时 ， 这 些 建 议 告 诉 你 怎样 避 开 一 些 常 见 的 陷阱 。 这 些 建议 ， 大 多 数 都 是 从 浪费 的 时 间 和 令 人 泪 形 的 死胡同 中 圣 藻 得 到 的 教 
训 ， 它 们 有 助 于 快速 并 有 效 地 解决 你 的 性 能 问题 。 


阅读 本 草 后 ， 你 将 能 够 : 

. 避免 重复 他 人 的 工作 。 

` 避免 重复 自己 的 工作 。 

` 避免 因 收集 的 误导 信息 而 导致 的 虚假 线索 。 
:为 你 的 研究 创建 有 用 的 参考 文档 。 


& 管 所 有 的 性 能 调查 都 是 有 瑕 竟 的 (“如 果 一 开始 束 能 想到 ”是 你 的 口头 禅 ) ， 但 这 些 建议 将 会 帮助 你 避免 性 能 研究 中 的 一 


省 
些 弟 见 错 误 。 


1.1.1 记 大 量 的 笔记 (记录 所 有 的 事情 ) 


在 调查 性 能 问题 时 ， 你 可 以 做 的 最 重要 的 事情 大 概 束 是 记录 下 看 到 的 每 一 个 输出 、 执 行 的 每 一 条 命令 ,以 及 人 研究 的 每 一 个 信 
息 。 结 构 清晰 的 记录 能 让 你 只 查看 记录 束 可 以 检验 天 于 性 能 问题 原因 的 猜想 ， 而 不 是 重新 运行 测试 。 这 能 节约 大 量 时 间 。 写 下 来 
并 且 创 建 性 能 记录 。 


在 性 能 调查 之 初 ， 我 通常 会 为 其 创建 一 个 目录 ， 在 GNU Emacs 中 打开 一 个 新 的 “Notes” 文 件 ， 开 始 记 录 系 统 的 信息 。 之 
后 ， 将 性 能 结果 保存 到 这 个 目录 ， 并 将 有 意思 的 和 相关 的 信息 保存 到 Notes 文 件 。 建 议 将 下 面 的 内 容 添加 到 你 的 性 能 调查 文件 和 
目录 中 : 


. 记录 硬 / 软 件 的 配置 情况 一 一 记录 下 的 信息 包括 硬件 配置 ( 主 存 容 量 、CPU 类 型 、 网 络 和 磁盘 子 系统 ) 和 软件 环境 (OS 和 
软件 的 版 本 、 相 关 配 置 文件 ) 。 这 些 信 息 看 上 去 很 容易 在 之 后 重 现 , 但 是 在 追踪 问题 时 ， 你 可 能 会 大 幅度 地 修改 系统 配置 。 认 真 
细致 的 笔记 有 助 于 在 特定 的 测试 过 程 中 弄 清楚 系统 配置 。 


示例 : 每 次 测试 时 ， 保 存 cat/proc/pci、dmesg 和 和 uname-a 的 输出 。 


. 保存 并 组 织 性 能 结果 一 一 运行 很 长 时 间 后 还 能 评估 性 能 结果 是 很 有 价值 的 。 记 录 系 统 配置 的 同时 ， 也 记录 测试 结果 。 这 使 
尔 得 以 比较 不 同 的 配置 是 如 何 影 响 性 能 结果 的 。 如 果 需 要 ， 可 以 重新 运行 测试 ， 但 是 测试 一 种 配置 是 耗费 时 间 的 过 程 。 只 需 让 笔 
记 保 持 条 理 清晰 ， 避 免 重复 工作 则 效率 更 高 。 


写 下 命令 行 调 用 一 一 在 运行 性 能 工具 时 ， 常 常 需要 用 困难 复杂 的 命令 行 来 准确 定位 到 你 感 兴趣 的 系统 区 域 进行 测量 。 如 果 
想 重 新 测试 ， 或 在 不 同 的 应 用 程序 上 运行 相同 的 测试 ， 那 么 ， 复 制 这 些 命令 行 不 仅 令 人 厌烦 ， 并 且 在 初次 尝试 时 ， 不 容易 做 对 。 
更 好 的 办 法 是 准确 记录 下 你 键入 的 信息 。 这 样 在 之 后 的 测试 中 就 能 够 完全 重 现 命令 行 ， 而 在 回顾 之 前 测试 结果 时 ， 也 可 以 看 到 你 
测量 的 内 容 。Linux 命 令 sctipt ( 详 见 第 8 章 ) 或 者 从 终端 “ 剪 切 粘贴 ”都 是 完成 这 项 工作 的 好 方法 。 


记录 人 研究 信息 和 URL 调查 性 能 问题 时 ， 将 在 互联 网 上 发 现 的 相关 信息 记录 下 来 是 很 重要 的 ， 不 论 发 现 的 途径 是 电子 邮 
件 ， 还 是 人 际 交 往 。 如 果 你 找到 一 个 看 上 去 相关 的 网 站 ， 就 把 它 剪 切 粘 贴 到 你 的 笔记 中 。 (网 站 是 会 消失 的 。) 当然 ， 还 要 记录 
下 URL， 因 为 你 可 能 在 之 后 还 要 查看 这 个 网 页 ， 或 者 网 页 所 指 信息 对 后 面 的 调查 会 变 得 重要 起 来 。 


在 收集 和 记录 所 有 这 些 信 息 时 ， 你 可 能 : 这 样 做 值得 吗 ” 有 些 信息 眼下 显得 宫 无 作用 或 有 误导 性 ， 但 它 在 将 来 可 能 是 
有 用 的 。 (好 的 性 能 调查 就 像 一 部 优秀 的 侦探 剧 : 尽管 开始 的 时 候 所 有 的 线索 都 令 人 迷惑 ， 但 最 终 都 会 真相 大 白 。) 在 调查 问题 
时 ， 请 牢记 以 下 几 点 : 


台 口 四 


不 总 是 清晰 明了 的 。 有 的 时 候 ， 你 需要 更 多 的 信息 才能 理解 某 个 结 
果 的 含义 。 之 后 ， 你 可 以 回 过 头 以 新 的 视角 重新 审视 那些 看 似 无 用 的 测试 结果 。 实 际 上 ， 间 信息 可 能 会 驳斥 或 者 证 明 关 于 性 能 问 
题 本 质 的 某 个 特定 理论 。 


: 所 有 的 信息 都 是 有 用 的 (这 也 惑 是 你 要 记录 的 原因 ) 记录 已 运行 的 测试 信息 以 及 系统 配置 信息 的 原因 不 见得 会 立即 明 
晰 。 这 一 点 在 你 试图 向 开发 人 员 或 管理 人 员 解 释 系 统 性 能 不 佳 的 原因 时 是 非常 有 用 的 。 通 过 记录 和 整理 调查 过 程 中 你 所 见 的 一 
切 ， 你 就 有 证 据 支 持 特定 理论 ， 同 时 也 具备 大 量 的 测试 结果 来 证 明 或 驳斥 其 他 理论 。 


: 定期 回顾 你 的 笔记 可 以 得 到 送 尔 为 性 能 问题 积攒 了 大 量 的 信息 时 ， 那 就 定期 回顾 它们 。 重 新 审视 会 让 你 关注 
结果 ， 而 不 是 测试 。 当 许多 测试 结果 放 在 一 起 被 同时 查看 时 ， 问 题 的 原因 也 许 就 会 自动 浮现 。 回 顾 你 收集 的 数据 ， 就 可 以 在 不 实 
际 运行 任何 测试 的 情况 下 进行 理论 检验 。 


在 调查 问题 时 ， 重 做 一 些 工作 虽然 是 不 可 避免 的 ， 但 是 ， 在 重 做 工作 上 人 花费 的 时 间 越 少 ， 你 的 效率 残 越 局 。 如 果 你 写 了 大 量 
的 笔记 ， 并 有 办 法 在 发 现 信 息 时 记录 它们 ， 那 么 你 束 可 以 依赖 已 经 做 过 的 工作 ， 而 避免 重复 运行 测试 以 及 重复 研究 。 保 持 笔记 的 
徘 性 和 一 人 怪 性 ， 从 而 三省 时 间 减 少 挫折 。 


例如 ， 在 调查 性 能 问题 后 ， 最 终 确定 为 硬件 原因 ( 主 存 慢 、CPU 慢 等 ) ， 你 可 能 会 想 通 过 升级 慢 速 硬件 ， 并 重新 运行 测试 
来 检验 这 个 想法 。 通 党 要 花 一 点 时 间 才 能 获得 新 硬件 ， 而 在 你 可 以 重新 运行 测试 之 前 可 能 已 经 过 了 很 久 。 当 最 终 可 以 开始 的 时 
候 ， 你 想 要 在 新 老 硬 件 上 运行 同样 的 测试 。 如 果 你 已 经 保存 了 之 前 的 测试 调用 和 测试 结果 ， 那 么 ， 你 马上 残 知 道 要 怎样 为 新 硬件 
进行 测试 设置 ， 同 时 也 可 以 比较 新 的 结果 与 保存 的 旧 结 


1.1.2 ” 目 动 执行 重复 任务 
当 开 始 调整 系统 改进 性 能 时 ， 键 入 复杂 命令 行 很 容易 出 现 错误 ， 而 无 意 中 使 用 的 不 正确 参数 和 配置 则 会 产生 误导 性 的 性 能 信 
息 。 因 此 ， 自 动 执行 性 能 工具 调用 和 应 用 程序 测试 是 一 个 好 办 法 : 


: 性 能 工具 调用 一 一 有 些 Linux 性 能 工具 的 命令 行 相当 复杂 ， 给 自己 省 点 力 ， 把 它们 保存 到 一 个 shell 脚 本 中 ， 或 是 将 所 有 命 
令 都 放 到 可 以 进行 剪 切 粘贴 的 参考 文件 中 。 这 可 以 让 你 少 受 些 挫 折 ， 并 且 让 你 多 少 有 些 信 心 : 用 来 调用 工具 的 命令 行 是 正确 的 。 


应 用 程序 测试 大 部 分 应 用 程序 有 着 复杂 的 配置 ， 要 么 通过 命令 行 ， 要 么 通过 配置 文件 。 你 会 经 常 重新 运行 要 多 次 测试 


的 应 用 程序 ， 若 将 调用 保存 为 脚本 ， 就 能 少 走 育 路 。 虽 然 刚 开 始 的 时 候 ， 键 入 30 个 字符 的 命令 看 上 去 很 容易 ， 但 这 样 的 操作 重复 
10 次 后 ， 你 就 会 向 往 目 动 执 行 了 。 


尽 可 能 多 地 自动 执行 ， 就 能 减少 错误 。 使 用 脚本 自动 执行 ， 可 以 节省 时 间 ， 并 有 助 于 避免 因 不 当 工 具 和 测试 调用 造成 的 误导 
性 信息 。 


举 个 例子 ， 你 想 在 特定 工作 负载 下 或 某 段 时 间 内 监控 系统 ， 但 是 在 测试 结束 时 ， 你 可 能 不 在 现场 。 这 种 情况 下 ， 脚 本 残 很 好 
用 了 ， 在 测试 完成 时 ， 可 以 目 动 收 集 、 命 名 、 保 存 全 部 生成 的 性 能 数据 ， 并 将 它们 目 动 放 到 “Results” 目 录 中 。 有 了 这 些 基础 
之 后 ， 你 残 能 按照 不 同 的 优化 和 调整 重新 运行 测试 ， 并 且 不 用 担心 数据 是 否 已 经 保 仔 好 。 你 反而 可 以 集中 精力 找 出 问题 的 原因 ， 
而 不 是 去 管理 测试 结 


1.1.3 ” 尽 可 能 选择 低 开 销 工具 


一 般 情 况 下 ， 观 察 系 统 会 修改 系统 的 行为 。 (对 物理 爱好 者 来 说 ， 这 束 是 海 森 堡 (Heisenberg) 不 确定 性 原理 。 ) 


具体 而 言 ， 在 使 用 性 能 工具 时 ， 它 们 会 改变 系统 的 行为 方式 。 调 查 问 题 的 时 候 ， 你 想 要 看 看 应 用 程序 是 如 何 执行 的 ， 同 时 还 
必须 处 理性 能 工具 引 友 的 错误 。 这 是 不 可 避免 的 癣 端 ， 但 是 你 要 知道 它 的 存在 ， 并 努力 将 其 最 小 化 。 有 些 性 能 工具 能 够 给 出 高 度 
精确 的 系统 信息 ， 但 其 检索 信息 的 开销 也 很 高 。 高 开销 工具 对 系统 行为 市 来 的 变化 大 于 低 开 销 工 具 。 如 果 你 只 需要 了 解 系统 的 粗 
略 信 息 ， 那 么 使 用 低 开 销 的 工具 是 更 好 的 选择 ， 即 使 它们 不 够 准确 。 


例如 ， 对 于 正在 使 用 的 应 用 程序 ， 工 具 ps 能 给 出 其 主 存 数 量 和 类 型 的 相当 不 错 但 粗糙 的 概况 。 那 些 准 确 性 更 高 ， 但 是 影响 
较 大 的 工具 ， 如 memprof 或 valgrind， 昌 然 也 能 提供 这 些 信 息 ， 但 是 它们 消耗 的 主 存 和 CPU 资源 比 只 使 用 原始 应 用 程序 要 大 ， 
因此 会 改变 系统 行为 。 


1.1.4 ”使 用 多 个 工具 来 搞 靖 楚 间 题 


虽然 在 找 出 性 能 问题 原因 的 时 候 ， 如 果 只 需要 用 一 个 工具 那 将 是 非 钊 方便 的 ， 但 这 种 情况 相当 少见 。 实 际 上 ， 你 使 用 的 每 一 
种 工具 都 会 为 问题 的 原因 提供 绪 系 ， 因 此 ， 你 必须 同时 使 用 多 个 工具 来 真正 摘 清 楚 太 生 了 什么 。 比 如 ， 一 种 性 能 工具 会 告诉 你 系 
统 存 在 大 量 的 磁盘 |/O， 而 男 一 种 工具 则 告诉 你 系统 使 用 了 大 量 的 交换 。 如 果 只 以 第 一 个 工具 的 结论 制定 解决 方案 ， 你 可 能 会 们 
盘 |/O 是 由 大 量 使 用 的 交换 造成 的 。 在 这 种 情况 下 ， 你 可 能 会 买 更 多 的 主 存 以 减少 交换 (这 样 束 不 会 再 有 大 量 的 磁盘 |/O) 。 


比 起 单一 地 使 用 任何 一 种 工具 ， 同 时 使 用 多 个 性 能 工具 通 弟 能 让 你 对 性 能 问题 有 更 清晰 的 了 解 。 
塌 言 : 让 人 措 象 


三 个 盲人 在 一 头 大 象 旁 边 ， 想 要 杭 清 楚 它 长 什么 样子 。 第 一 个 人 拉 住 了 尾巴 ， 说 道 : “大 象 就 像 一 根 绳子 。 ”第 二 个 人 摸 到 
了 象 腿 ， 说 道 : “大 象 像 一 棵 树 。 ”第 三 个 人 摸 到 了 大 象 一 侧 的 身体 ， 说 道 : “大 象 像 一 堵 厚 实 的 墙 。 


显然 ， 没 有 一 个 人 得 出 了 正确 的 答案 。 如 果 他 们 将 各 目的 印象 进行 共享 和 组 合 ， 那 么 ， 他 们 就 可 能 发 现 大 象 真正 的 模样 。 别 
做 摸 象 的 让 人 。 同 时 使 用 多 种 性 能 工具 找 出 问题 的 原因 。 


1.1.5 ”相信 你 的 工具 


性 能 追 踊 的 过 程 中 ， 最 令 人 兴 否 又 令 人 泪 形 的 时 刻 之 一 ， 束 是 工具 显示 了 一 个 “不 可 能 ”的 结果 。 某 些 “ 不 会 ” 友 生 的 事情 
却 明明 日 日 地 友 生 了 。 第 一 反应 会 认为 工具 坏 了 。 不 要 被 直 铝 加 弄 了 ， 工 具 是 公正 的 。 叶 然 它们 可 能 会 不 正确 ， 但 这 更 有 可 能 是 
因为 应 用 程序 做 了 不 该 做 的 事情 。 要 使 用 工具 来 调查 问题 。 


举 个 例子 ，Gnome 计 算 器 使 用 超过 2000 个 系统 调用 只 为 了 实现 加 载 和 退出 。 如 果 没 有 性 能 工具 来 证 明 这 个 事实 ， 那 么 ， 仪 
仅 为 了 局 动 和 停止 应 用 程序 残 需要 如 此 之 多 的 系统 调用 看 上 去 是 没有 必要 的 。 但 是 性 能 工具 能 够 显示 其 友 生 的 位 置 和 原因 。 


1.1.6 利用 其 他 人 的 经 验 (慎重 ) 


在 调查 任何 一 个 性 能 问题 时 ， 你 可 能 会 友 现 问题 令 人 不 知 所 措 。 不 要 独自 面 对 它 。 问 问 开 友 者 是 否 见 过 同样 的 问题 。 试 着 找 
到 其 他 解决 过 你 所 遇 问 题 的 人 。 在 互联 网 上 搜索 类 似 的 问题 ， 并 希望 找到 解决 方案 。 给 用 尸 和 开 友 人 员 友 电子 邮件 。 


本 条 建议 附 审 一 个 提醒 : 即使 开 友 者 认为 了 解 目 己 的 应 用 程序 ， 他 们 也 不 见得 总 是 对 的 。 如 果 开 妈 者 不 认同 性 能 工具 的 数 
据 ， 那 么 ， 他 们 也 许 是 错 的 。 向 开 友 者 展示 你 的 数据 以 及 你 为 何 会 得 出 这 样 的 结论 。 他 们 通常 会 帮 你 重新 解释 数据 或 者 解决 问 
题 。 不 论 是 哪 种 情况 ， 都 会 将 你 的 调查 向 前 推进 一 些 。 如 果 你 的 数据 表明 友 生 了 不 该 友 生 的 事情 ， 残 不 要 害怕 与 开 友 者 有 分 卜 。 


比如 ， 你 通常 可 以 按照 在 Google 上 搜索 类 似 问 题 得 到 的 指导 来 解决 性 能 问题 。 很 多 时 候 ， 在 调查 一 个 Linux 问 题 时 ， 你 会 友 
现 之 前 已 经 有 人 过 到 过 了 (即使 是 几 年 前 ) ， 而 且 还 在 公共 邮件 列表 中 报告 了 解决 方法 。 使 用 Google 是 很 容易 的 ， 它 可 以 为 你 
瑟 省 几 天 的 工作 量 。 


1.2 ”性 能 凋 便 概要 


本 节 列 出 了 开始 性 能 调查 时 的 几 个 重要 步骤 。 由 于 终极 目标 是 解决 问题 ， 因 此 最 好 的 方法 是 在 你 接触 性 能 工具 之 前 束 开 始 研 
究 问 题 。 遵 循 如 下 特定 步骤 是 解决 问题 的 有 效 方法 ， 并 且 不 会 溪 费 宝贵 的 时 间 。 


1.2.1 找到 指标 、 基 绪 和 目标 


性 能 调查 的 第 一 步 束 是 确定 当前 的 性 能 ， 并 明确 其 应 提升 的 程度 。 如 果 你 的 系统 明显 性 能 不 佳 ， 你 束 可 以 确定 值得 花 时 间 进 
行 研究 。 但 是 ， 如 果 系 统 性 能 接近 其 峰值 ， 那 么 束 不 值得 研究 。 明 确 性 能 峰值 有 助 于 你 设置 合理 的 性 能 期 望 值 ， 并 能 给 你 一 个 性 
能 目标 ， 这 样 你 就 知道 何 时 应 该 停止 优化 。 你 可 能 总 是 没有 目标 地 时 不 时 对 系统 做 一 点 调整 ， 这 会 浪费 大 量 的 时 间 ， 只 为 得 到 一 
些 额 外 的 性 能 ， 即 使 你 可 能 并 不 真 的 需要 它们 。 


1.2.1.1 确定 指标 


要 想 知 道 什 么 时 候 结 束 优 化 ， 你 必须 为 系统 上 自行 确立 或 是 使 用 已 友 布 的 指标 。 指 标 是 一 种 客观 的 度量 ， 用 于 指示 系统 的 执行 
情况 。 例 如 ， 如 果 你 要 优化 一 个 Web 服 务 器 ， 你 残 可 以 选择 “每 秒 服务 的 Web 请 求 数 ”。 如 果 你 没有 一 个 客观 的 途径 来 度量 性 
能 ， 那 么 在 调整 系统 的 时 候 ， 你 几乎 无 法 确定 是 否 取得 了 进展 。 


1.2.1.2 ”确定 基线 


在 你 明确 了 如 何 度量 特定 系统 或 应 用 程序 的 性 能 之 后 ， 确 定 当前 的 性 能 等 级 融 很 重要 了 。 在 调整 和 优化 之 前 ， 运 行 应 用 程序 
并 记录 其 性 能 ， 这 丈 是 基线 值 ， 它 是 性 能 调查 的 起 点 。 


1.2.1.3 ”确定 目标 


在 你 确定 了 性 能 指标 和 基线 后 ， 现 在 需要 确定 一 个 目标 ， 这 个 目标 引导 你 完成 性 能 追踪 。 你 可 以 无 限期 地 调整 系统 ， 花 费 越 
来 越 多 的 时 间 来 获得 更 加 好 一 点 的 性 能 。 如 果 你 制定 了 目标 ， 那 么 你 融会 知道 什么 时 候 该 结束 整个 过 程 。 要 选择 合理 的 目标 ， 下 
面 是 一 些 好 的 起 点 : 


. 寻找 其 他 有 相同 配置 的 人 ， 询 问 他 们 的 性 能 指标 一 一 这 是 理想 状态 。 如 果 你 能 发 现 某 人 拥有 相似 的 系统 和 更 好 的 性 能 ， 则 
不 仅 能 为 你 的 系统 选 定 目标 ， 还 能 与 这 个 人 一 起 工作 : 他 可 以 确定 为 什么 你 的 配置 更 慢 ， 以 及 该 配置 有 何不 同 。 在 研究 问题 时 ， 
使 用 另 一 个 系统 作为 参照 被 证 明 是 非常 有 用 的 。 
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: 查找 工业 标准 测试 程序 的 结 许多 网 站 都 比较 了 计算 机 系统 各 方面 的 基准 测试 结果 。 有 些 基准 测试 结果 是 经 过 异常 好 
努力 得 到 的 ， 因 此 ， 它 们 可 能 不 能 代表 真实 的 使 用 情况 。 不 过 ， 很 多 基准 测试 网 站 给 出 了 特定 结果 使 用 的 配置 ， 这 些 配置 信息 可 
以 为 你 调整 系统 提供 线索 。 


ar 2b 


在 不 同 的 OS 或 应 用 程序 上 使 用 你 的 硬 人 统 上 运行 不 同 的 软件 以 实现 相似 的 功能 。 比 如 ， 如 果 你 有 两 
个 不 同 的 Web 服 务 器 ， 其 中 一 个 运行 较 慢 ， 那 么 就 试 试 另 一 个 ， 看 它 的 性 能 是 否 好 一 些 。 或 者 ， 在 另 一 个 不 同 的 操作 系统 上 运行 
同一 个 应 用 程序 。 如 果 上 述 任 一 情况 下 系统 执行 表现 得 更 好 一 些 ， 那 么 ， 你 就 会 知道 原来 的 应 用 程序 还 有 改进 的 空间 。 


如 果 用 现 有 的 性 能 信息 来 指导 你 的 目标 ， 那 么 你 有 更 好 的 机 会 来 选择 一 个 积极 的 ， 但 也 并 非 不 可 能 达到 的 目标 。 


抓 住 低 处 的 果实 
性 能 追踪 的 另 一 种 方法 是 选择 在 特定 时 间 段 内 进行 追踪 ， 而 不 是 选择 一 个 目标 ， 在 这 段 时 间 内 尽 可 能 地 对 性 能 进行 优化 。 如 
有 果 应 用 程序 从 未 被 优化 过 ， 那 么 通常 在 给 定 工作 负载 下 ， 会 有 一 些 问题 相对 容易 解决 。 这 些 容易 被 修复 的 问题 称 为 “ 低 处 的 果 
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实 


为 什么 是 “ 低 处 的 果实 ? 打 个 比方 ， 将 性 能 调查 想象 成 你 饭 了 ， 正 站 在 一 棵 苹果 树 下 。 你 会 采摘 最 靠近 地 面 ， 也 是 你 最 容 
易 够 到 的 苹果。 这 些 低 处 的 革 果 与 果树 稍 高 处 较 难 够 到 的 革 果 一 样 能 够 填 饱 你 的 肚子 ,但 是 采摘 它们 只 需 花 费 很 少 的 力气 。 相 似 
的 ， 如 果 你 要 在 有 限 的 时 间 内 优化 一 个 应 用 程序 ， 你 可 能 会 试 着 修复 那些 最 简单 明显 的 问题 ( 低 处 的 果实 ) ,而 不 是 做 一 些 更 困 
难 的、 根本 性 的 变化 。 


1.2.2 ” 追 味 近似 问题 


使 用 性 能 工具 为 确定 问题 原因 打开 第 一 个 口子 。 通 过 初始 的 粗略 尝试 ， 你 能 对 问题 形成 大 致 的 看 法 。 这 个 简单 切口 的 目的 束 
是 收集 足够 的 信息 传递 给 程序 的 其 他 用 尸 和 开 友 者 ， 以 便 他 们 提出 意见 和 建议 。 这 里 非常 重要 的 一 点 是 要 有 良好 的 书面 记录 来 解 


释 你 认为 问题 是 怎样 的 ， 以 及 什么 样 的 测试 使 你 得 出 了 这 个 结论 。 


1.2.3 ”查看 问题 是 人 否 早 已 解决 


你 的 下 一 个 目标 是 确定 是 否 有 其 他 人 已 经 解决 了 这 个 问题 。 性 能 调查 可 能 是 一 个 见长 且 费 时 的 事情 ， 如 果 你 正好 可 以 利用 其 
他 人 的 工作 ， 那 么 在 你 开始 之 前 束 将 抢占 先 机 。 因 为 你 的 目的 束 是 要 改进 系统 性 能 ， 所 以 解决 性 能 问题 最 好 的 办 法 就 是 依靠 其 他 
人 已 有 的 成 果 。 


尽管 你 很 可 能 对 性 能 问题 的 具体 建议 持 保 留 态度 ， 但 是 这 些 建议 具有 启发 性 ， 可 以 使 你 了 解 到 其 他 人 可 能 已 经 研究 过 相似 的 
问题 ， 他 们 是 如 何 试 荐 解决 问题 的 ， 以 及 他 们 是 否 成 功 了 。 


下 述 这 些 地 方 也 能 寻求 性 能 建议 : 


“ 在 Web 上 但 找 相似 的 错误 信息 /问题 一 一 这 通常 是 我 调查 的 第 一 步 。Web 搜 索 常 常会 揭示 很 多 与 应 用 程序 以 及 你 正在 查找 
的 具体 错误 情况 相关 的 信息 。 它 们 还 可 以 指向 其 他 用 户 所 尝试 的 系统 优化 ， 还 可 能 提示 哪些 有 作用 、 哪 些 没有 作用 。 成 功 的 搜索 
可 以 产生 好 几 页 能 够 直接 用 于 你 的 性 能 问题 的 信息 。 要 发 现 有 相似 性 能 问题 的 人 ， 使 用 Google 或 Google 论 坛 搜索 是 非常 有 用 的 方 
法 。 


: 在 应 用 程序 邮件 列表 上 求助 一 一 大 多 数 流行 或 公开 开发 的 软件 都 有 软件 使 用 者 的 邮件 列表 ， 这 是 寻找 性 能 问题 答案 的 绝 佳 
地 方 。 读 者 和 页 献 者 通常 在 软件 运行 以 及 保持 其 性 能 良好 方面 有 经 验 。 搜 索 一 下 邮件 列表 的 存档 ， 因 为 有 人 可 能 会 问 过 相同 的 问 
题 。 而 随后 对 原始 消息 的 回复 也 许 就 描述 了 一 个 解决 方案 。 如 果 没 有 这 样 的 回复 ， 就 向 最 初 提出 这 个 问题 的 人 发 邮件 ， 询 问 他 是 
否 找 到 了 解决 方法 。 如 果 这 样 也 不 行 ， 或 是 没有 其 他 人 提出 过 相似 的 问题 ， 那 么 在 列表 上 发 邮件 说 明 你 的 问题 ， 幸 运 的 话 ， 也 许 


已 经 有 人 把 这 个 问题 解决 了 。 


同 开 友人 员 友 邮件 一 一 很 多 Linux 软 件 在 文档 的 菜 个 位 置 包含 了 开发 者 的 e-mail 地 址 ， 如 果 在 互联 网 和 邮件 列表 中 搜索 失 
败 ， 你 可 以 尝试 直接 给 开发 者 发 邮件 。 开 发 人 员 通 常 非常 忙 ， 不 见得 有 时 间 回 复 邮 件 。 但 是 ， 相 比 其 他 人 ， 他 们 更 加 了 解 软件 ， 
如 果 你 能 向 开发 者 提供 对 性 能 问题 条 理 清晰 的 分 析 ， 并 愿意 和 他 一 起 工作 ， 那 么 开发 者 也 许 能 帮助 你 。 虽 然 开 发 者 关于 性 能 问题 
原因 的 想法 不 见得 正确 ,但 是 他 们 可 能 会 给 你 指出 一 个 富有 成 果 的 方向 。 


最 后 ， 如 果 产 品 是 内 部 开发 的 ， 你 就 可 以 与 内 部 开发 人 员 通 电话 或 发 邮件 。 这 和 与 外 部 开发 者 联 


与 内 部 开发 人 员 交 淡 
不 过 内 部 人 员 可 能 会 在 你 的 问题 上 投入 更 多 时 间 ， 或 是 给 你 指出 内 部 的 知识 库 。 


系 几乎 是 一 样 的 ， 只 不 过 


依靠 其 他 人 的 工作 ， 你 也 许 在 性 能 调查 开始 之 前 融 能 解决 问题 。 人 至 少 ， 你 有 可 能 找到 一 些 有 希望 的 方法 来 调查， 所以， 最 好 
忌 是 看 看 别人 有 什么 友 现 。 


1.2.4 ”项 目 开始 (局 动 调 合 ) 


现在 你 已 经 详细 了 解 了 别人 解决 问题 的 可 能 性 ， 接 下 来 必须 开始 性 能 调查 了 。 后 续 章节 将 详细 介绍 工具 和 | 方法， 但 是 现在 还 
有 一 些 提示 能 让 你 的 工作 效果 更 好 : 


分 丽 问 题 一 一 如 果 可 能 的 话 ， 删 去 任何 运行 于 被 调查 系统 的 多 余 的 程序 或 应 用 。 运 行 许多 不 同 应 用 程序 的 系统 ， 其 负载 较 


重 ， 会 影响 性 能 工具 收集 信息 的 准确 性 ， 并 最 终 将 你 引导 到 错误 的 方向 。 


- 利用 系统 差异 上 友 现 原因 一 一 如 果 你 能 发 现 一 个 相似 的 系统 具有 更 好 的 性 能 ， 那 么 这 对 问题 调试 将 是 一 个 有 力 的 帮助 。 使 用 


性 能 工具 的 问题 之 一 就 是 ， 你 不 一 定 有 好 的 方法 知道 性 能 工具 的 结果 是 否 指明 了 问题 。 如 果 你 有 一 个 好 的 系统 和 一 个 差 的 系统 ， 


你 就 可 以 在 这 两 个 系统 上 运行 同样 的 性 能 工具 ， 并 比较 它们 的 结果 。 如 果 结 果 不 同 ， 就 可 以 通过 找 出 系统 差异 来 确定 问题 的 原 
因 。 


一 次 只 改变 一 件 事 


多 个 不 同 的 测试 ， 但 它 的 确 是 发 现 你 是 否 解 决 了 问题 的 唯一 途径 。 


这 点 非常 重要 。 要 真正 确定 问题 出 在 哪儿 ， 一 次 只 能 有 一 个 变化 。 这 可 能 会 很 花 时 间 ， 并 让 你 运行 
> 


始终 在 优化 后 重新 测量 一 一 如 果 你 稍稍 调整 了 系统 ， 那 么 在 调整 后 对 所 有 的 事情 重新 进行 测量 是 很 重要 的 。 当 你 开始 修改 
系统 配置 时 ， 所 有 之 前 生成 的 性 能 信息 可 能 不 再 有 效 。 通 常 ， 在 你 解决 一 个 性 能 问题 时 ， 别 的 问题 会 随 之 而 来 。 新 问题 可 能 与 老 
问题 有 着 极 大 的 不 同 ， 因 此 ， 你 真 的 需要 重新 运行 性 能 工具 来 确保 正在 调查 的 问题 没有 出 错 。 


遵循 这 些 建议 能 帮助 你 避免 误导 ， 并 有 助 于 确定 性 能 问题 的 原因 。 


1.2.5 记录 ,记录 ,记录 


如 前 所 述 ， 记 录 你 所 做 的 事情 以 便 之 后 回顾 和 审查 ， 这 一 点 确实 很 重要 。 如 果 你 已 经 开始 追 趴 性 能 问题 ， 那 么 在 你 的 脑海 中 
束 会 有 大 量 新 增 的 笔记 和 URL。 它 们 可 能 杂乱 无 章 ， 瘟 成 一 团 ， 但 现在 你 明日 它们 的 意思 ， 知 道 它 们 的 组 织 结构 。 在 解决 问题 
后 ， 论 些 时 间 重 写 你 的 友 现 以 及 为 什么 你 认为 这 么 做 是 对 的 。 包 括 测 量 得 到 的 性 能 结果 和 做 过 的 实验 。 虽 然 看 上 去 工作 量 很 大 ， 
但 却 是 非常 值得 的 。 几 个 月 后 ， 曾 经 做 过 的 测试 很 容易 束 会 被 筷 记 ， 如 果 没 有 将 结果 记录 下 来 ， 最 终 你 可 能 会 重 做 测试 。 如 果 在 
这 些 测试 还 记忆 狐 新 时 撰写 了 报告 ， 你 束 不 用 重 做 这 些 工 作 ， 而 只 需要 依靠 这 些 记录 束 行 。 


1.3” 本章 小 结 


追 趴 性 能 问题 应 该 是 个 令 人 满意 且 兴 奋 的 过 程 。 如 果 用 正确 的 方法 去 研究 和 分 析 ， 你 的 问题 追 踊 将 会 事半功倍。 首先 ,确定 
是 否 有 其 他 人 遇见 过 相似 的 问题 ， 如 果 有 ， 滨 试 他 们 的 解决 万 案 。 要 对 他 们 告诉 你 的 保持 怀疑 ， 要 寻找 具有 类 似 问 题 经 验 的 人 。 
为 你 的 性 能 追踪 设立 合理 的 指标 和 目标 ， 指 标 使 你 知道 什么 时 候 应 该 结束 追踪 。 目 动 执 行 性 能 测试 。 生 成 测试 结果 和 配置 信息 
时 ， 要 确保 将 它们 记录 下 来 ， 以 便 之 后 可 以 审 坦 这 些 结果 。 保 持 结果 的 条 理性 ， 记 录 下 任何 与 你 的 问题 相 天 的 研究 和 其 他 信息 。 
最 后 ， 定 期 回顾 你 的 笔记 ， 找 出 之 前 可 能 被 漏 挥 的 信息 。 如 果 遵 循 了 这 些 原 则 ， 你 的 问题 调查 将 会 有 一 个 明确 的 目标 和 一 个 清晰 
的 过 程 。 


本 草 给 出 了 性 能 调查 的 基本 背景 ， 后 续 章节 将 会 覆盖 Linux 特 有 的 性 能 工具 。 你 将 学 习 如 何 使 用 工具 ， 它 们 可 以 提供 什么 类 
型 的 信息 ， 以 及 如 何 组 合 使 用 它们 找 出 特定 系统 的 性 能 问题 。 


第 2 章 ”性 能 工具 : 系统 CPU 


本 草 概述 了 系统 级 的 Linux 性 能 工具 。 这 些 工具 是 你 人 妃 路 性 能 问题 时 的 第 一 道 防线 。 它 们 能 展示 整个 系统 的 性 能 情况 和 哪些 
部 分 表现 不 好 。 本 章 将 讨论 这 些 工 具 可 以 测量 的 统计 信息 ， 以 及 如 何 使 用 各 种 工具 收集 这 些 统计 结果 。 阅 读本 章 后 ， 你 将 能 够 : 


` 理解 系统 级 性 能 的 基本 指标 ， 包 括 CPU 的 使 用 情况 。 


明白 哪些 工具 可 以 检索 这 些 系 统 级 性 能 指标 。 


2.1 CPU 性 能 统计 信息 


每 一 种 系统 级 Linux 性 能 工具 都 提供 了 不 同 的 方式 来 提取 相似 的 统计 结果 。 虽 然 没 有 工具 能 显示 全 部 的 信息 ， 但 是 有 些 工具 
显示 的 是 相同 的 统计 信息 。 为 了 不 多 次 (每 种 工具 一 次 ) 解释 统计 信息 的 含义 ， 我 们 在 描述 所 有 工具 之 前 对 这 些 信息 进行 一 次 性 
说 明 。 


2.1.1 运行 队列 统计 


在 Linux 中 ， 一 个 进程 要 么 是 可 运行 的 ， 要 么 是 阻塞 的 〈 正 在 等 待 一 个 事件 的 完成 ) 。 阻 塞 进程 可 能 在 等 待 的 是 从 I/O 设 备 
来 的 数据 ， 或 者 是 系统 调用 的 结果 。 如 果 进 程 是 可 运行 的 ， 那 残 意 味 痢 它 要 和 其 他 也 是 可 运行 的 进程 竞争 CPU 时 间 。 一 个 可 运 
行 的 进程 不 一 定 会 使 用 CPU， 但 是 当 Linux 调 度 器 决定 下 一 个 要 运行 的 进程 时 ， 它 会 从 可 运行 进程 队列 中 挑选 。 如 果 进 程 是 可 运 
行 的 ， 同 时 又 在 等 待 使 用 处 理 器 ， 这 些 进程 束 构 成 了 运行 队列 。 运 行 队列 越 长 ， 处 于 等 待 状态 的 进程 束 越 多 ，。 


性 能 工具 通 党 会 给 出 可 运行 的 进程 个 数 和 等 待 |/O 的 阻塞 进程 个 数 。 另 一 种 常见 的 系统 统计 是 平均 负载 。 系 统 的 负载 是 指正 
在 运行 和 可 运行 的 进程 尽数 。 比 如 ， 如 果 正 在 运行 的 进程 为 两 个 ， 而 可 运行 的 进程 为 三 个 ， 那 么 系统 负载 束 是 >。 平均 负载 是 给 
定时 间 内 的 负载 量 。 一 般 情况 下 ， 取 平均 负载 的 时 间 为 1 分 钟 、5 分 钟 科 15 分 钟 。 这 能 让 你 观察 到 负载 是 如 何 随时 间 变 化 的 。 


2.1.2 上 下 文 切换 


大 部 分 现代 处 理 器 一 次 只 能 运行 一 个 进程 或 线程 。 虽 然 有 些 处 理 器 (比如 超 线程 处 理 器 ) 实际 上 可 以 同时 运行 多 个 进程 ， 但 
是 Linux 会 把 它们 看 作 多 个 单线 程 处 理 器 。 如 果 要 制造 出 给 定单 处 理 器 同时 运行 多 个 任务 的 假象 ，Linux 内 核 融 要 不 断 地 在 不 同 的 
进程 间 切 损 。 这 种 不 同 进程 间 的 切换 称 为 上 下 文 切换 ， 因 为 当 其 辟 生 时 ，CPU 要 保 仔 旧 进 程 的 所 有 上 下 文 信息 ， 并 取出 新 进程 
的 所 有 上 下 文 信息 。 上 下 文中 包含 了 Linux 跟 路 新 进程 的 大 量 信 息 ， 其 中 包括 : 进程 正在 执行 的 指令 ， 分 配给 进程 的 内 存 ， 进 程 
打开 的 文件 等 。 这 些 上 下 文 切换 涉及 大 量 信息 的 移动 ， 因 此 ， 上 下 文 切换 的 开销 可 以 是 相当 大 的 。 尽 量 减少 上 下 文 切 换 的 次 数 是 
个 好 主意 。 


要 避免 上 下 文 切换 ， 重 要 的 一 点 是 了 解 它们 是 如 何 友 生 的 。 首 先 ， 上 下 文 切 换 可 以 是 内 核 调 度 的 结果 。 为 了 保证 公平 地 给 每 
个 进程 分 配 处 理 器 时 间 ， 内 核 周 期 性 地 中 断 正在 运行 的 进程 ， 在 适当 的 情况 下 ， 内 核 调 度 器 会 决定 开始 男 一 个 进程 ， 而 不 是 让 当 
前 进程 继续 执行 。 每 次 这 种 周期 性 中 断 或 定时 友 生 时 ， 你 的 系统 都 可 能 进行 上 下 文 切换 。 每 秒 定 时 中 断 的 次 数 与 以 构 和 内 核 版 本 
有 天 。 一 个 检查 中 断 频率 的 简单 方法 是 用 /proc/interrupts 文 件 ， 它 可 以 确定 已 知 时 长 内 友 生 的 中 断 次 数 。 如 清单 2.1 所 示 。 


清单 2.1 


root@localhost asm-i386]# cat /proc/interrupts | grep timer 
; Sleep 10 ; cat /proc/interrupts | grep timer 


四 : 24060043 XT -PIC timer 
@: 24070093 XT-PIC timer 


在 清单 2.1 中 ， 我 们 要 求 内 核 给 出 定时 器 启动 的 次 数 ， 等 待 10 秒 后 ， 再 次 请 求 。 这 殊 是 说 ， 在 这 台 机 器 上 定时 器 启动 频率 为 
(24070093-24060043) 中 断 / (10 秒 ) 或 者 约 1000 次 中 断 / 秒 。 如 果 你 的 上 下 文 切换 明显 多 于 定时 器 中 断 ， 那 么 这 些 切换 极 有 
可 能 是 由 MO 请 求 或 其 他 长 时 间 运 行 的 系统 调用 (如 休眠 ) 造成 的 。 当 应 用 请 求 的 操作 不 能 立即 完成 时 ， 内 核 司 动 该 操作 ， 保 存 
请 求 进程 ， 并 芝 试 切换 到 另 一 个 已 残 绪 进程 。 这 能 让 处 理 器 尽量 保持 忙 状 态 。 


2.1.3 中断 


此 外 ， 处 理 器 还 周期 性 地 从 硬件 设备 接收 中 断 。 当 设备 有 事件 需要 内 核 处 理 时 ， 它 通常 融会 触 上 这 些 中 断 。 比 如 ， 如 果 磁 盘 
控制 器 网 风 | 完成 从 驱动 器 取 数 据 块 的 操作 ， 并 准备 好 提供 给 内 核 ， 那 么 磁盘 控制 器 融会 触 皮 一 个 中 断 。 对 内 核 收 到 的 每 个 中 断 ， 
如 果 已 经 有 相应 的 已 注册 的 中 断 处 理 程序 ， 融 运行 该 程序 ， 人 否则 将 忽略 这 个 中 断 。 这 些 中 断 处理 程 序 在 系统 中 具有 很 高 的 运行 优 
先 级 ， 并 且 通 常 执行 速度 也 很 快 。 有 时 ， 中 断 处 理 程序 有 工作 要 做 ， 但 是 又 不 需要 高 优先 级 ， 因 此 它 可 以 启动 “下 半 
部 ” (bottom half) ， 也 融 是 所 谓 的 软 中 断 处 理 程 序 。 如 果 有 很 多 中 断 ， 内 核 会 化 大 量 的 时 间 服 务 这 些 中 断 。 碍 
看 /procinterrupts 文 件 可 以 显示 出 哪些 CPU 上 触 友 了 哪些 中 断 。 


2.1.4 CPU 使 用 率 


CPU 使 用 率 是 个 简单 的 概念 。 在 任何 给 定 的 时 间 ，CPU 可 以 执行 以 下 七 件 事 情 中 的 一 个 : 


(1) CPU 可 以 是 空 南 的 ， 这 意味 痢 处 理 器 实际 上 没有 做 任何 工作 ， 并 且 等 待 有 任务 可 以 执行 。 


~ 


(2) CPU 可 以 运行 用 户 代码 ， 即 指定 的 “用 户 ” 时 间 。 


~ 


(3) CPU 可 以 执行 Linux 内 核 中 的 应 用 程序 代码 ， 这 束 是 “系统 ”时 间 。 


(4) CPU 可 以 执行 “比较 友好 ”的 或 者 优先 级 被 设置 为 低 于 一 般 进 程 的 用 户 代码 。 

(5) CPU 可 以 处 于 iowait 状 态 ， 即 系统 正在 等 待 WO (如 磁盘 或 网 络 ) 完成 。 

(6) CPU 可 以 处 于 irq 状 态 ， 即 它 正 在 用 高 优先 级 代码 处 理 硬 件 中 断 。 

(7) CPU 可 以 处 于 softirq 模 式 ， 即 系统 正在 执行 同样 由 中 断 触 点 的 内 核 代 码 ， 只 不 过 其 运行 于 较 低 优先 级 (下 半 部 代 
码 ) 。 


此 情景 出 现 的 条 件 为 : 友 生 设备 中 断 时 ， 而 内 核 在 将 其 移交 给 用 户 空间 之 前 必须 对 其 进行 一 些 处 理 (比如 ， 处 理 网 络 包 ) 。 


大 多 数 性 能 工具 将 这 些 数 值 表示 为 占 CPU 忌 时 间 的 百分比 。 这 些 时 间 的 范围 从 0% 到 100%， 但 全 部 三 项 加 起 来 等 于 100%。 


一 个 具有 高 “系统 ”百分比 的 系统 表明 其 大 部 分 时 间 都 消耗 在 了 内 核 上 。 像 oprofile 一 样 的 工具 可 以 帮助 确定 时 间 都 消耗 在 了 哪 
里 。 具 有 高 “用 户 ” 时 间 的 系统 则 将 其 大 部 分 时 间 都 用 来 运行 应 用 程序 。 下 一 草 展示 在 上 述 情况 下 ， 如 何 用 性 能 工具 追 叶 问 题 。 
如 果 系 统 在 应 该 工作 的 时 候 花 费 了 大 量 的 时 间 处 于 iowait 状 态 ， 那 它 很 可 能 在 等 待 来 目 设 备 的 |/O。 导 致 速度 变 慢 的 原因 可 能 是 
磁盘 、 网 卡 或 其 他 设备 。 


2.2 Linux 性 能 工具 : CPU 


现在 开始 讨论 性 能 工具 ， 使 用 这 尝 工具 能 够 提取 之 前 摘 述 的 那些 信息 


2.2.1 vmstat (虚拟 内 存 统计 ) 

vmstat 是 指 虚 拟 内 存 统计 ， 这 个 名 称 表 了 明 它 能 告诉 你 系统 的 虚拟 内 存 性 能 信息 。 笠 运 的 是 ， 它 实际 上 能 完成 的 工作 远 不 目 
于 此 。vmstat 是 一 个 很 有 用 的 命令 ， 它 能 获取 整个 系统 性 能 的 粗略 信息 ， 包 括 : 

` 正在 运行 的 进程 个 数 。 

-CPU 的 使 用 情况 

:CPU 接收 的 中 断 个 数 

. 调度 器 执行 的 上 下 文 切 换 次 数 。 

已 是 用 于 获取 系统 性 能 大 致 信息 的 极 好 工具 。 

2.2.1.1 CPU 性 能 相关 的 选项 

vmstat 可 以 被 如 下 命令 行 调用 : 


vmstat [-n] [:s] [delay [count]] 


vmstat 运 行 于 两 种 模式 : 采样 模式 和 平均 模式 。 如 果 不 指定 参数 ， 则 vmstat 统 计 运 行 于 平均 模式 下 ，vmstat 显 示 从 系统 启 
动 以 来 所 有 统计 数据 的 均值 。 但 是 ， 如 果 指 定 了 延迟 ， 那 么 第 一 个 采样 仍然 是 系统 局 动 以 来 的 均值 ， 但 之 后 vmstat 按 延迟 秒 数 
采样 系统 并 显示 统计 数据 。 表 2-1 解 释 了 vmstat 的 选项 


表 2-1 vmstat 命令 行 选项 


选 项 说 明 
可 | 默认 情况 下 ，vmstat 定期 显示 每 个 性 能 统计 数据 的 列 标题 。 本 选项 禁止 该 特性 ， 因 此 初始 列 
标题 之 后 ， 只 显 示 性 能 数据 dl vmstat 导出 为 电子 表格 ， 使 用 这 个 选项 是 有 好 处 的 
_s 本 选项 一 次 性 输出 vmstat 收集 的 系统 统计 的 详细 信息 。 该 信息 为 系统 启动 后 的 总 数据 
delay | vmstat 玉 样 的 间隔 时 间 


vmstat 提 供 的 各 种 统计 输出 信息 ， 使 你 能 跟 中 系统 性 能 的 不 同方 面 。 表 2-2 和 解释 了 与 CPU 性 能 相关 的 输出 。 下 一 章 说 明 与 内 
存 性 能 相关 的 输出 。 


表 2-2 与 CPU 相关 的 vmstat 输 出 


列 说 明 
当 六 可 运行 的 进程 数 。 这 些 进 程 没 有 等 待 IVO ， 而 是 已 经 准备 好 运行 。 理 想 状 态 下 ， 可 运行 
| 进程 数 应 与 可 用 CPU 的 数量 相等 
b | 等 FE 符 IO 完成 的 被 阻塞 进程 数 
forks 创建 新 进程 的 次 数 
in | 系统 发 生 中 断 的 次 数 
cs | 系统 发 生 上 下 文 切 换 的 次 数 
”us | 用 户 进程 消耗 的 总 CPU 时 间 的 百分比 (包括 “友好 的 ”时 间 ) 
sy | 系统 代码 消耗 的 总 CPU 时 间 的 百分比 ， 其 中 包括 消耗 在 system、irq 和 softirq 状态 的 时 间 
wa 等 待 IO 消耗 的 总 CPU 时 间 的 百分比 
id 系统 空闲 消耗 的 总 CPU 时 间 的 百分比 


vmstat 提 供 了 一 个 低 开 销 的 良好 系统 性 能 视图 。 由 于 所 有 的 性 能 统计 数据 都 以 文本 形式 呈现 ， 并 打印 到 标准 输出 ， 因 此 ， 
捕捉 测试 中 生成 的 数据 ， 以 及 之 后 对 其 进行 处 理 和 绘图 束 会 很 万 便 。 由 于 vmstat 的 开销 如 此 之 低 ， 因 此 当 你 需要 一 目 了 然 地 监 
空 系统 健康 状况 时 ， 让 它 在 控制 人 台 上 或 窗口 中 持续 运行 ， 甚 至 是 在 负载 非常 重 的 服务 器 上 是 很 实用 的 。 


2.2.1.2 ”用 法 示例 


如 清单 2.2 所 示 ， 如 果 vmstat 运 行 时 没有 使 用 命令 行 参数 ， 显 示 的 将 是 目 系 统 司 动 后 它 记录 下 的 统计 信息 的 均值 。 根 
据 “CPU 使 用 率 ” 列 下 面 的 us、sy、wa 和 id， 本 例 显 示 出 系统 从 局 动 开 始 ， 基 本 上 处 于 空 内 状态 。 从 局 动 开 始 ，CPU 有 5% 的 时 
间 用 于 执行 用 己 应 用 程序 代码 ，1% 的 时 间 用 于 执行 系统 代码 ， 而 其 余 94% 的 时 间 处 于 空 闪 状态 。 


清单 2.2 


[ezolt@scrffy tmp]$ vmstat 


procs ----------- memory---------- --- SWap-- ----- 10---- -- System-- 
----CphUuU---- 

r b swpd free buff cache si so bi bo in cs us sy id 
wa 

1 0 181024 26284 35292 503048 0 0 3 2 6 1 5 194 0 


尽管 vmstat 从 系统 局 动 时 开始 统计 有 助 于 确定 系统 的 负载 情况 ,但 是 ，vmstat 最 有 用 的 是 运行 于 米 样 模式 下 ， 如 清单 2.3 所 
示 。 人 在 采样 模式 下 ，vmstat 间 隅 delay 参 数 指定 的 秒 数 输出 系统 统计 数据 ， 而 采样 次 数 由 count 给 出 。 清 单 2.3 第 一 行 的 统计 数据 
和 之 前 一 样 ， 是 系统 局 动 以 来 的 均值 ， 但 之 后 就 是 定期 洲 样 。 本 例 展示 出 系统 的 活动 非常 少 。 通 过 查看 b 列 下 面 的 0， 我 们 可 以 
知道 在 运行 时 没有 阻塞 进程 。 通 过 得 看 r 询 ， 我 们 还 可 以 看 到 在 vmstat 采 样 数据 时 ， 正 在 运行 的 进程 数量 少 于 1。 


清单 2.3 


[ezolt@scrffy tmpl$ vmstat 2 5 


Procs ----------- memory---------- --- SWap-- -----i0---- -- System-- ---- cpu 
r b swpd free buff cache si Sso bi bo in cs us Sy id wa 
1 9 181024 26276 35316 502960 0 0 3 2 6 1 5 194 0 
1 6 181024 26084 35316 502960 0 0 0 0 1318 7172 1 098 0 
0 0 181024 26148 35316 502960 0 0 0 24 1314 734 1 098 0 
0 0 181024 26020 35316 502960 0 0 0 0 1315 764 2 098 0 
0 0 181024 25956 35316 502960 0 0 0 0 1310 764 2 098 0 


公 、 


vmstat 是 一 种 记录 系统 在 一 定 负载 或 测试 条 件 下 行为 的 好 方法 。 可 以 用 vmstat 显 示 系 统 的 行为 ， 同 时 利用 Linux 的 tee 命 令 
将 结果 输出 到 文件 。 (第 8 章 详 细 描 述 了 tee 命 令 。) 如 果 你 只 传递 了 参数 delay，vimstat 束 会 无 限 采 样 。 在 测试 开始 前 启动 
vmstat， 测 试 结束 后 终止 vmstat。 输 出 文件 的 形式 可 以 是 电子 表格 ， 并 能 够 用 于 查看 系统 对 负载 和 各 种 系统 事件 是 如 何 反 应 
的 。 清 单 2.4 给 出 了 按照 这 个 方法 得 到 的 输出 。 在 这 个 例子 中 ， 我 们 可 以 查看 到 系统 发 生 的 中 断 和 上 下 文 切换 。 在 in 列 和 cs 列 能 
分 别 查 看 到 中 断 和 上 下 文 切 换 的 总 数 。 

上 下 文 切换 的 数量 小 于 中 断 的 数量 。 调 度 器 切换 进程 的 次 数 少 于 定时 器 中 断 触 友 的 次 数 。 这 很 可 能 是 因为 系统 基本 上 是 空 | 
的 ， 在 定时 器 中 断 触 发 的 大 多 数 时 候 ， 调 度 器 没有 任何 工作 要 做 ， 因 此 它 也 不 需要 从 空闲 进程 切换 出 去 。 

(注意 : 生成 如 下 输出 的 vmstat 版 本 有 错误 。 它 会 导致 系 统 输 出 的 平均 线 显示 不 正确 的 数值 。 该 错误 已 经 报告 给 了 vmstat 


的 维护 者 ， 希 望 能 尽快 修复 。) 


清单 2.4 


[ezolt@scrffy ~/edid]$ vmstat 1 | tee /tmp/output 


ProcS ----------- memory---------- --- SWap-- ----- 10---- -- Systemn-- ---- cplu 
r b swpd free buff cache si $0 bi bo in cs US sy id wa 
0 1 201060 35832 26532 324112 0 0 3 2 6 2 5 1 94 0 
0 0 201060 35888 26532 324112 0 0 16 0 1138 358 0 0 99 0 
0 0 201060 35888 26540 324104 0 0 0 88 1163 371 0 0 100 0 
0 0 201060 35888 26540 324104 0 0 0 0 1133 345 0 0 100 0 
0 0 201060 35888 26540 324104 0 0 0 60 1174 351 0 0 100 0 
0 0 201060 35920 26540 324104 0 0 0 0 1159 408 0 0 100 0 
[CtrlL-Cl] 
最 新 版 本 的 vmstat 甚 至 可 以 抽取 各 种 系统 统计 数据 更 详细 的 信息 ， 如 清单 2.5 所 示 。 


下 一 章 讨 论 内 存 统计 数据 ， 但 是 ， 现 在 我 们 来 查看 CPU 的 统计 信息 。 第 一 组 数据 ， 即 “CPU ticks” ， 显 示 的 是 自 系统 启动 
的 CPU 时 间 ， 这 里 的 “tick” 是 一 个 时 间 单 位 。 虽 然 精 简 的 vmstat 输 出 仅 显示 四 个 CPU 状态 一 us、sy、id 和 wa， 这 里 则 显示 
了 全 部 CPU ticks 的 分 布 情况 。 此 外 ， 我 们 还 可 以 看 到 中 断 和 上 下 文 切换 的 总 数 。 一 个 新 添加 的 内 容 是 forks， 它 大 体 上 表示 的 是 
从 系统 启动 开始 ， 已 经 创建 的 新 进程 的 数量 。 


清单 2.5 


[ezolt@scrffy 
1034320 
998712 
698076 
176260 
35608 
26592 
324312 
2040244 
201060 
1839184 


~/edid]$ vmstat -S 
total memory 

USed memory 
active memory 
inactive memory 
free memory 
buffer memory 
swap cache 

total swap 

Used swap 


free swap 


5279633 
28207739 
2355391 


non-nice USer cpu ticks 
nice user cpu ticks 


system cpu ticks 


628297350 
862755 
34 


1707439 
21194571 


12677400 
93406 
181587 
1931462143 
785963213 
1096643656 
578451 


idle cpu ticks 
IO-wait Cpu ticks 
IRQ cpu ticks 
softirqg cpu ticks 
pages paged in 

pages paged out 
pages swapped in 
pages swapped out 
interrupts 

CPU context switches 
boot time 

forks 


vmstat 提 供 了 关于 Linux 系 统 性 能 的 众多 信息 。 在 调查 系统 问题 时 ， 它 是 核心 工具 之 一 。 


2.2.2 top (2.0.x 版 本 ) 
top 是 Linux 系 统 监 控 工 具 中 的 瑞士 军刀 。 它 善于 将 相当 多 的 系统 整体 性 能 信息 放 在 一 个 屏幕 上 。 显 示 内 容 还 能 以 交互 的 方 
式 进 行 改变 ， 因 此 ， 在 系统 运行 时 ， 如 果 一 个 特定 的 问题 不 断 突 显 ， 你 可 以 修改 top 显 示 的 信息 。 


默认 情况 下 ，top 表 现 为 一 个 将 占用 CPU 最 多 的 进程 按 降序 排列 的 列表 。 这 使 得 你 能 够 迅速 找 出 是 哪个 程序 独占 了 CPU。 
top 根 据 指定 的 延迟 定期 更 新 这 个 列表 (其 初始 值 为 3 秒 ) 。 

2.2.2.1 CPU 性 能 相关 的 选项 
top 用 如 下 命令 行 调用 : 


top [d delay] [C] [H] [il [n iter] [b] 


top 实 际 上 有 两 种 模式 的 选项 : 命令 行 选项 和 运行 时 选项 。 命 令 行 选项 决定 top 如 何 显示 其 信息 。 表 2-3 给 出 的 命令 行 选 项 会 


影响 top 显 示 的 性 能 统计 信息 的 类 型 和 频率 。 


选 ”项 说 明 
d delay 统计 数据 更 新 的 时 间 间 陋 
n iterations 退出 前 的 迭代 次 数 。top 更 新 统计 数据 的 次 数 为 iterations 次 
i 不 显示 未 使 用 任何 CPU 的 进程 
显示 应 用 程序 所 有 的 单个 线程 ， 而 不 仅仅 给 出 每 个 应 用 程序 的 总 和 
C 对 超 线 程 或 SMP 系统 ， 显 示 CPU 统计 数据 总 和 ， 而 不 是 每 个 CPU 的 数据 


在 你 运行 top 时 ， 为 了 调查 特定 问题 ， 你 可 能 想 要 对 你 的 观察 略 作 调整 。top 输 出 的 可 定制 性 很 高 。 表 2-4 给 出 的 选项 可 以 在 


top 运 行 期 间 修改 显示 的 统计 信息 : 


表 2-4 top 运行 时 统计 信息 显示 选项 
选 项 说 明 
f 或 F 显示 一 个 配置 界面 ， 用 于 选择 在 屏幕 上 显示 哪些 进程 统计 信息 
o 或 0 显示 一 个 配置 界面 ， 用 于 修改 显示 统计 信息 的 顺序 


表 2-5 给 出 的 选项 打开 或 天 闭 各 种 系统 级 信息 的 显示 。 关 闭 不 需要 的 统计 信息 有 助 于 在 屏幕 上 显示 更 多 进程 。 
表 2-5 top 运行 时 输出 切换 选项 


选 项 说 明 
] 切换 更 新 和 显示 平均 负载 以 及 正常 运行 时 间 信 息 
切换 显示 每 个 CPU 消耗 时 间 的 情况 。 它 还 切换 显示 当前 运行 的 进程 数量 。 显 示 应 用 程序 全 部 
的 独立 线程 ， 而 不 是 显示 每 个 应 用 程序 的 总 数 
在 屏 莫 上 切换 显示 系统 内 存 使 用 信息 。 上 默认 情况 下 ， 最 占用 CPU 的 进程 第 一 个 显示 。 不 过 ， 
按照 其 他 特征 排序 可 能 更 有 用 


表 2-6 对 top 双 持 的 不 同 排序 模式 进行 了 说 明 。 近 内存 消耗 量 排序 尤其 有 用 ， 它 能 找 出 哪个 进程 消耗 了 最 多 的 内 仓 。 


表 2-6 top 输出 排序 /显示 选项 


选 项 说 明 
P 按 CPU 消耗 量 对 任务 排序 。 最 高 的 CPU 用 户 第 一 个 显示 
T 按 到 目前 为 止 使 用 的 CPU 时 间 总 量 对 任务 排序 。 总 量 最 高 的 第 一 个 显示 
N 按 任务 的 PID 进行 排序 。PID 最 低 的 第 一 个 显示 
A 按 任务 时 长 进行 排序 。 最 新 的 PID 第 一 个 显示 。 通 常 与 “ 按 PID 排序 ”相反 


i 隐 志 空 和 不 消耗 CPU 的 任务 


top 除 了 提供 特定 进程 的 信息 之 外 ， 还 提供 系统 整体 信息 。 表 2-7 给 出 了 这 些 统计 信息 ，。 


表 2-7 top 性 能 统计 信息 


选 项 说 明 


US 用 户 应 用 程序 消耗 的 CPU 时 间 
sy 内 核 消耗 的 CPU 时 间 
ni “友好 的 ”进程 消耗 的 CPU 时 间 
id 空闲 的 CPU 时 间 
wa 等 待 IO 的 CPU 时 间 
hi irqg 处 理 程序 消耗 的 CPU 时 间 
si softirq 处 理 程 序 消耗 的 CPU 时 间 
1oad average 1 分 钟 、5 分 钟 和 15 分 钟 的 平均 负载 
%CPU 特定 进程 消耗 CPU 时 间 的 百分比 
PRI 进程 优先 级 ， 值 越 大 表示 优先 级 越 高 。RT 代表 任务 为 实时 优先 级 ， 该 优先 级 高 于 标准 范围 
NI 进程 的 nice 值 。nice 值 越 蜗 ,系统 执行 该 进程 的 必要 性 就 越 低 。 对 于 具有 高 nice 值 的 
进程 ， 通 常 其 优先 级 会 非常 低 
( 续 ) 
选 项 说 明 
WCHAN 若 进 程 在 等 待 IO ， 该 项 显示 其 等 待 的 是 哪个 内 核 晒 数 
进程 当前 状态 。 这 里 ， 进 程 可 以 是 睡眠 状态 (S)， 运 行 状态 (R)， 僵 尸 状 态 (要 求 终 止 但 还 
未 终止 )(Z),， 不 可 中 断 的 睡眠 状态 (D )， 或 者 跟踪 状态 (T) 

TIME 自 进程 开始 执行 起 已 消耗 的 总 的 CPU 时 间 (用 户 和 系统 ) 

COMMAND 进程 正在 执行 的 命令 

LC 进程 执行 时 最 后 使 用 的 CPU 编号 

FLAGS 该 项 切换 是 否 更 新 和 显示 平均 负载 与 正常 运行 时 间 信 息 


top 提 供 了 不 同 的 正在 运行 进程 的 大 量 信息 ， 是 找 出 资源 消耗 大 户 的 极 好 方法 。 
2.2.2.2 ”用 法 示例 


清单 2.6 是 运行 top 的 一 个 例子 。 当 它 局 动 后 ， 将 会 周期 性 地 更 新 屏幕 直到 退出 。 该 例 展 示 了 top 能 生成 的 一 些 系统 整体 统计 
言 息 。 首 先 。 我 们 能 看 到 1 分 钟 、5 分 钟 和 15 分 钟 的 系统 平均 负载 。 可 以 看 出 ， 系 统 已 经 开始 忙碌 起 来 (因为 doom-3.x86) 。 一 
个 CPU 在 用 户 代 码 上 化 费 了 90% 的 时 间 。 另 一 个 则 只 在 用 户 代 码 上 人 花费 了 约 13% 的 时 间 。 最 后 ， 我 们 看 到 73 个 进程 处 于 睡眠 状 


态 ， 只 有 3 个 进程 正在 运行 。 


清单 2.6 


catan> top 
08:09:16 up 2 days, 18:44, 4 users, load average: 0.95，0.44，0.17 


76 processes: 73 sleeping, 3 running, @ zombie, ©@ stopped 


CPU states: cpu user nice system irq Softirq iowait idle 
total 51.5% 0 .0% 3.9% 0.0% 0. 0% 0.0% 44.6% 
cpu00 90. 0% 0 .0% 1.2% 0.05 0.0% 0 .05 8 .85 
cpu01 13. 0% 0. 0% 6.6% 0.0% 0. 0% 0.0% 80.4% 
Mem: 2037140k av，1132120k used, 905020k free, OKk shrd, 86220Kk buff 
689784k active, 151528k inactive 
Swap: 2040244k avV ， Ok Used，2040244k free 322648k cached 
PID USER PRI NI SIZE RSS SHARE STAT %CPU SMEM TIME CPU COMMAND 
7642 root 25 0 647M 379M 7664 R 49.9 19.0 2:58 @ doom.x86 
7661 ezolt 15 0 1372 1372 1052 R 0.1 0.0 0:00 1 top 
1 root 15 0 528 S528 452 5 0.0 0.0 0:05 下 LN 
2 root RT 0 0 0 0 SW 0.0 0.0 0:00 0 migration/0 
3 root RT 0 0 0 0 SW 0.0 0.0 0:00 1 migration/1 
4 root 15 0 0 0 0 SW 0.0 0.0 0:00 0 keventd 
5 root 34 19 0 0 0 SWN 0.0 0.0 0:00 0 ksoftirqd/0 
6 root 34 19 0 0 0 SWN 0.0 0.0 0:00 1 ksoftirqd/1 
9 root 25 0 0 0 0 SW 0.0 0.0 0:00 0 bdflush 
7 root 15 @ @ @ @ SW 0.0 0.0 0:00 0 kswapd 
8 root 15 0 @ 0 OSW 0.0 0.0 0:00 1 kscand 
1@ root 15 @ @ @ @ SW @.0 0.0 @:00 1 kupdated 
11 root 25 @ @ @ @ SW DO 00 0:00 0 mdrecoveryd 


现在 ， 在 top 运 行 时 按 下 F 键 弹出 配置 界面 ， 如 清单 2.7 所 示 。 当 你 按 下 代表 键 (A 代 表 PID，B 代 表 PPID， 等 等 ) 时 ，top 将 
切换 这 些 统计 信息 在 屏幕 上 的 显示 。 选 择 好 需要 的 全 部 统计 信息 后 ， 按 下 Enter 键 返回 top 的 初始 界面 ， 现 在 它 显 示 的 是 选 出 的 
统计 信息 的 当前 值 。 在 配置 统计 信息 时 ， 所 有 当前 选择 的 字段 将 会 以 大 写 形 式 显 示 在 Current Field Order 行 ， 并 在 其 名 称 旁 出 


现 一 个 星 号 (*) 。 


清单 2.7 


[ezolt@wintermute docj$ top 
(press F' while running) 
Current Field Order: AbcDgHIjklMnoTP|qrsuzyV{EFWI{[X 


Toggle fields with a-z, any other key to return: 


* A: PID = Process Id 
B: PPID = Parent Process Id 
La 2 = User Id 

* D: USER = User Name 

* E: %CPU = CPU Usage 

* F: MEM = Memory Usage 
G: TTY = Controlling tty 

* H: PRI = Priority 

二 TT. NI = Nice Value 
J: PAGEIN = Page Fault Count 
K: TSIZE = Code Size (kb) 

L: DSIZE = Data+Stack Size (kb) 

* M: SIZE = Virtual Image Size (kb) 
N: TRS = Resident Text Size (kb) 
0: SWAP = Swapped kb 

* P: SHARE = Shared Pages (kb) 

Q: A = Accessed Page count 
R: WP = Write Protected Pages 
S:; D = Dirty Pages 

* T: RSS = Resident Set Size (kb) 
U: WCHAN = Sleeping in Function 

* Vy: STAT = Process Status 

* W: TIME = CPU Time 

* X: COMMAND = Command 

Y: LC = Last used CPU (expect this to change regularly) 

Z: FLAGS = Task Flags (see linux/sched.h) 


为 了 展示 top 的 可 定制 性 ,清单 2.8 给 出 了 一 个 高 度 配 置 的 输出 界面 ， 其 中 只 显示 了 与 CPU 使 用 率 相关 的 top 选 项 : 


清单 2.8 


08:16:23 up 2 days, 18:52, 4 users, load average: 1.07，0.92，0.49 


76 processes: 73 sleeping, 3 running, © zombie，0 stopped 


CPU states; cpu user Nice System irq Softirq iowait idle 
total 48 .2% 0 .0% 1.5% 0.05 0.05 0.05 50. 1% 
cpu00 0 .3% 0 .05 0.1% 0.0% 0.0% 0. 0% 99. 5% 
cpUO1 96 .2% 0 .0% 2.9% 0.05 0. 0% 0. 0% 0.7% 
Mem: 2037140k av，1133548k used, 903592k free, OKk shrd, 86232k buff 
690812k active, 151536k inactive 
Swap: 2040244k av， Ok used, 2040244k free 322656k cached 
PID USER PRI NI WCHAN FLAGS LC STAT %CPU TIME CPU COMMAND 
7642 root 25 0 100100 1R 49.6 10:30 1 doom.x86 
1 root 15 0 400100 0 S 0.0 0:05 0 init 
2 root RT 0 140 0 SW 0.0 0:00 0 migration/0 
3 root RT 0 140 1 SW 0.0 0:00 1 migration/i1 
4 root 15 0 40 0 SW 0.0 0:00 0 keventd 
5 root 34 19 40 0 SW 0.0 0:00 0 ksoftirqd/0 
6 root 34 19 40 1 SWN 0.0 0:00 1 ksoftirqd/1 
9 root 25 0 40 0 SW 0.0 0:00 0 bdflush 
7 root 15 0 840 0 SW 0.0 0:00 0 kswapd 
8 root 15 0 40 0 SW 0.0 0:00 0 kscand 
10 root 15 0 40 0 SW 0.0 0:00 0 kupdated 
11 root 25 0 40 0 SW 0.0 0:00 0 mdrecoveryd 
20 root 15 0 400040 0 SW 0.0 0:00 0 katad-1 


top 提 供 了 一 个 系统 资源 使 用 率 的 总 虎 ， 其 重点 信息 在 于 各 种 进程 是 如 何 消耗 这 些 次 源 的 。 由 于 其 输出 格式 对 用 户 是 友好 


的 ， 而 对 工具 是 不 友好 的 ， 因 此 最 好 是 在 与 系统 直接 交互 时 使 用 。 


2.2.3 top (3.x.x 版 本 ) 


近来 ， 最 新 版 本 中 提供 的 top 已 经 有 了 彻底 的 改变 ， 其 结果 束 是 很 多 命令 行 和 交互 选项 友 生 了 变化 。 虽 然 基 本 思 E 
的 ， 但 对 top 进 行 了 精简 ， 并 添加 了 几 个 不 同 的 显示 模式 。 


同样 的 ，top 呈 现 为 一 个 降序 列表 ， 排 在 最 表面 的 是 最 占用 CPU 的 进程 。 


2.2.3.1 ”CPU 性 能 相关 的 选项 
用 如 下 命令 行 调用 top: 


top [:-d delay] [-n iter] [-i] [{-b] 


top 实 际 有 两 种 模式 的 选项 : 命令 行 选项 和 运行 时 选项 。 命 令 行 选项 决定 top 如 何 显示 其 信息 。 表 2-8 给 出 的 命令 行 
响 top 显 示 的 性 能 统计 信息 的 类 型 和 频率 。 


各 是 相似 


了 选项 会 影 


选 项 说 明 


-d delay 统计 信息 更 新 的 时 间 间 陋 
-n iterations | 退出 前 迭代 的 次 数 。top 更 新 统计 信息 的 次 数 为 iterations 次 
-1 是 否 显示 空闲 进程 
以 批 处 理 模式 运行 。 通 常 ，top 只 显示 单 屏 信息 ， 超 出 该 屏幕 的 进程 不 显示 。 该 选项 显示 全 
-b 部 进程 ， 如 果 你 要 将 top 的 输出 保存 为 文件 或 将 输出 流水 给 男 一 个 命令 进行 处 理 ， 那 么 该 项 
是 很 有 用 的 


运行 top 时 ， 为 了 调理 特定 问题 ， 你 可 能 想 要 对 你 的 观察 略 作 调整 。 和 top 2.x 版 本 一 样 ， 其 输出 的 可 定制 性 很 高 。 表 2-9 给 
出 的 选项 可 以 在 top 运 行 期 间 修改 显示 的 统计 信息 。 


表 2-9 top 运行 时 选项 


选 项 说 明 
A 进程 信息 的 “ 另 一 种 ”显示 方式 ， 其 内 容 为 各 种 系统 资源 最 大 的 消耗 者 
选择 top 是 否 用 系统 中 的 CPU 数量 除 以 CPU 使 用 率 
I 例如 ， 一 个 系统 中 有 两 个 CPU， 如 果 一 个 进程 占用 了 这 两 个 CPU， 那 么 这 个 选项 将 在 top 
显示 CPU 使 用 率 为 100% 或 200% 之 间 切 换 
f 显示 配置 界面 ， 选 择 在 屏幕 上 显示 哪些 统计 信息 
0 显示 配置 界面 ， 修 改 统计 信息 的 显示 顺序 


表 2-10 给 出 的 选项 打开 或 关闭 各 种 系统 级 信息 的 显示 。 关 闭 不 需要 的 统计 信息 有 助 于 在 屏幕 上 显示 更 多 进程 。 


表 2-10 top 运行 时 输出 切换 选项 


选 项 说 明 
1 (数字 1 ) 切换 CPU 使 用 率 是 按 独 立 使 用 率 显示 还 是 按 总 量 显示 
1 切换 是 否 更 新 和 显示 平均 负载 和 正常 运行 时 间 信 息 


与 top v2.x 相 同 ，top v3.x 除 了 提供 特定 进程 的 信息 之 外 ， 还 提供 系统 整体 信息 。 表 2-11 给 出 了 这 些 统计 信息 。 


表 2-11 top 性 能 统计 信息 


选 项 说 明 
US 用 户 应 用 程序 消耗 的 CPU 时 间 
sy 内 核 消耗 的 CPU 时 间 
ni 修改 过 “友好 ” 值 的 进程 消耗 的 CPU 时 间 
id 空闲 的 CPU 时 间 
wa 等 待 IO 的 CPU 时 间 


hi irg 处 理 程 序 消 耗 的 CPU 时 间 


选 项 
softirq 处 理 程序 


si 


load average 


消耗 的 CPU 时 间 
1 分 钟 、5 分 钟 和 15 分 钟 的 平均 负载 


，RT 代表 任务 为 实时 优先 级 ， 


说 


进程 可 以 是 睡眠 状态 


明 


和 


nice 值 越 吕 ， 系 统 执行 该 进程 的 必要 性 就 越 低 。 具 有 融 


该 优先 级 高 于 标准 范围 
nice 值 的 进程 通 


是 哪个 内 核 阴 数 


%CPU 特定 进程 消耗 CPU 时 间 的 百分比 
PRI 进程 优先 级 ， 值 越 大 表示 优先 级 越 高 .。 
i 进程 的 nice 值 。 
常 其 优先 级 会 非常 低 
WCHAN 若 进 程 在 等 待 1/O， 该 项 显示 其 等 待 的 } 
TIME 自 进程 开始 执行 起 已 消耗 的 总 的 CPU 时 间 (用 户 和 系统 ) 
COMMAND 进程 正在 执行 的 命令 
进程 当前 的 状态 。 这 里 ， 


还 未 终 上 上 )(Z)， 


top 提 供 了 不 同 的 正在 运行 进程 的 大 量 信息 ， 是 找 出 资源 消耗 大 户 的 极 好 方法 。top v.3 版 对 top 进 


对 相同 数据 的 不 同 视图 。 
2.2.3.2 ”用 法 示例 


清单 2.9 是 运行 top v3.0 的 一 个 例子 。 同 样 的 ， 


不 可 中 断 的 睡眠 状态 (D )， 


它 会 周期 性 地 更 新 屏幕 直到 退 


sers, 


load average: 


1 stopped, 
0.1% wa, 

11132k free, 
1825748k free, 


S %CPU %MEM 


S 3.8 


Cn 


1.9 
Te 


=h 
9 


清单 2.9 
catan> top 
top - 08:52:21 up 19 days, 21:38, 17 0 
Tasks: 149 total, 1 running, 146 sleeping, 
Cpu(Ss): 0.8% us, 0.4% sy, 
Mem: 1034320k total, 1023188k USed ， 
Swap: 2040244k total， 214496k USed ， 
PID USER PR NI VIRT RES SHR 
26364 root 16 0 400m 68m 321m 
26737 €z0l1t 15 0 71288 45m 21m 
29114 ezolt 15 0 34000 22m 18m 
9581 ezolt 15 0 2808 1028 1784 
1 root 16 0 2396 448 1316 
2 root RT 0 0 0 0 
3 root 34 19 0 0 0 
4 root RT 0 0 0 0 
5 root 34 19 0 0 0 
6 root RT 0 0 0 0 
7 root 34 19 0 0 0 
8 root RT 0 0 0 0 


DD 0 0 0 WW WW WW DD 0 
SS SS SS SS SS © SS © 
SS SO SS SS © © © © OO 


6. 
i 


©S SS SS © © © © © © DD 上 


SS SH SS SS © SS © © 


8 


~- ND 


uf 


0 
0 
0 
0 
0 : 
0 
0 
0 
0 


运行 状态 ( 
或 者 跟 蹊 状态 (T 


1 


， 人 僵尸 状态 《要求 终止 但 


J 了 精简 ， 并 增加 了 一 些 


出 。 其 统计 信息 与 top v2.x 相 同 ， 但 名 称 略 有 改 


06, 1.13, 1.15 
1 zombie 


0% hi, 0.3% si 


39920k buffers 


TIME+ 
379:32.04 
6:32.04 


:01 


:37 


5 ， 
:00 ， 
.68 
:00 . 
:00 . 
00 . 
:00 . 
-2 
:00. 
i 


62 
03 


68 
01 
Al 
01 
49 
01 


335488k cached 


COMMAND 

X 

gnome -terminal 
gnome -System-mo 
top 

init 
migration/@ 
ksoftirqd/0 
migration/i1 
ksoftirqd/1 
migration/2 
ksoftirqd/2 


migration/3 


9 root 34 19 0 0 0S 0.0 0.0 0:00.01 ksoftirgqd/3 
10 root 5 -10 0 0 0S 0.0 0.0 0:01.74 events/0 
11 root 5 -10 0 0 03S 0.0 0.0 0:02.77 events/1 
12 root 5 -10 0 0 0S 0.0 0.0 0:01.79 events/2 


现在 ， 在 top 运 行 时 按 下 { 键 调 出 配置 界面 ， 如 清单 2.10 所 示 。 当 你 按 下 代表 键 (A 代 表 PID，B 代 表 PPID 等 ) 时 ，top 将 切换 
这 些 统计 信息 在 屏幕 上 的 显示 。 选 择 好 需要 的 全 部 统计 信息 后 ， 按 下 Enter 键 返回 top 的 初始 界面 ， 现 在 它 显 示 的 是 被 选 出 的 统 
计 信 息 的 当前 值 。 在 配置 统计 信息 时 ， 所 有 当前 被 选择 的 字段 将 会 以 大 写 形式 显示 在 Current Field Order 行 ， 并 在 其 名 称 旁 出 


现 一 个 星 号 (*) 。 请 注意 ， 大 多 数 统计 信息 都 是 相同 的 ， 但 名 称 略 有 变化 。 


清单 2.10 


(press ‘f' while running) 


Current Fields: AEHIOQTWKNMbcdfgjplrsuvyzX for window 1:Def 


Toggle fields via field letter, type any other key to return 


PID 
USER 


本 
C 于 之 天 至 =- 避 
wn 


全 
-也 
二 
CD 
rm 
卫 


t =h 全 
3 
-3 
(3 
C= 
了 


清单 2.11 展 示 了 新 的 top 输 出 模式 ， 许 多 不 同 的 统计 信息 进 


清单 2.11 


Process Id 

User Name 

Priority 

Nice value 

Virtual Image (kb) 
Resident size (kb) 
Shared Mem size {kb) 


Process Status 


= CPU Usage 


Memory Usage (RES) 
CPU Time，hundredths 
Parent Process Pid 
Real USer name 

User Id 

Group Name 
Controlling Tty 

Last Used cpu (SMP) 
Swapped size (kb) 
CPU Time 

Code size (kb) 
Data+Stack size (kb) 


U: NFLT 
v: nDRT 
y: WCHAN 


[| 


Flags 
XxX: GOMMAND 


Flags field: 


Ox00000001 
Ox00000002 
Ox00000004 
Ox00000040 
x00000100 
Ox00000200 
Ox00000400 
Ox00000800 
x00002000 
Ox00008000 
x00024000 
Ox@0100000 
Ox00100000 


= Page Fayult count 

= Dirty Pages count 

= Sleeping in Function 
= Task Flags <sched.h> 


Command name/line 


i 


PF_ALIGNWARN 
PF_STARTING 
PF_EXITING 

PF FORKNOEXEC 
PF_SUPERPRIV 
PF_DUMPCORE 
PF_SIGNALED 
PF_MEMALLOC 

PF_FREE PAGES (2.5) 
debug flag (2.5) 
special threads (2.5) 
special states {2.5) 
PF USEDFPU (thru 2.,4) 


行 了 分 类 并 显示 在 同一 屏 磊 上 。 


(press 'F' While running) 

1:Def - 09:00:48 up 19 days, 21:46, 17 users, load average: 1.01，1.06，1.10 
Tasks: 144 total, 1 running, 141 sleeping, 1 stopped, 1 zombie 

Cpu(s): 1.2% us, 0@.9% sy, 0.0% ni, 97.9% id, 0.05 wa, 0.05 hi, 0@.05 si 
Mem: 1034320k total, 1024020k used, 10300k free, 39408Kk buffers 
Swap: 2040244k total, 214496K Used, 1825748k free, 335764k cached 


1 PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 

29114 ezolt 16 © 34112 22m 18m 3 3.6 2.2 28:;15.06 gnome-system-mo 
26364 root 15 ©@ 400m 68m 321m S 2.6 6.8 380:01.09 X 
9689 ezolt 16 ©®@ 3104 1092 1784 R 1.0 0.1 0:00.09 top 


2 PID PPID TIME+ %CPU %MEM PR NI S VIRT SWAP RES UID COMMAND 

30403 24989 0:00.03 0.0 0.1 15 0S 5808 4356 1452 9336 bash 

2951@ 29505 7:19.59 0.0 5.9 16 0S 125m 65m 59m9336 firefox-bin 
29505 29488 0:00.00 0.0 0.1 16 0S8 5652 4576 1076 9336 run-mozilla.sh 
3 PID 4MEM VIRT SWAP RES CODE DATA SHR nFLT nDRT S PR NI %CPU COMMAND 

8414 25.0 374m 121m 252m 496 373m 98m 1547 0S 16.: 0 0.0 soffice,.bin 

26364 6.8 400m 331m 68m 1696 398m 321m 2399 @8 15 @ 2.6 X 

29510 5.9 125m 65m S59m 64 125m 3im 253 @S 16 @ 0.0TfTirefox-bln 

@ 


26429 4.7 59760 1@m 47m 404 Sm 12m 1247 @Ss 15 0.0 metacity 


4 PID PPID UID USER RUSER TTY TIME+ %CPU %MEM S COMMAND 
1371 1 43 xfs xfs 1 0:00.10 00 0.1 S xfs 
1313 1 51 smmsp smmsp ? 0:00.08 00 0.2 3S sendmail 
982 1 29 rpcuser rpcuser ? 0:00.07 0.0 0.1S rpc,statd 
963 1 32 rpc rpe ? :06.23 0.0 上 .1 5 portmap 


top v3.x 为 top 提 供 了 稍 简洁 的 界面 。 它 简化 了 top 的 某 些 方面 ， 并 提供 了 一 个 很 好 的 “总 结 ” 信 息 屏 ， 显 示 了 系统 中 的 许多 
资源 消费 者 。 


2.2.4 ”procinfo (从 /proc 文 件 系统 显示 信息 ) 
束 像 vmstat 一 样 ，procinfo 也 为 系统 整体 信息 特性 提供 总 移 。 尽 绾 它 提供 的 有 些 信息 与 vmstat 相 同 ， 但 它 还 会 给 出 CPU 从 
每 个 设备 接收 的 中 断 数 量 。 其 输出 格式 的 易 读 性 比 vmstat 稍 微 强 一 点 ， 但 却 会 占用 更 多 的 屏幕 空间 。 
2.2.4.1 CPU 性 能 相关 的 选项 
procinfo 的 调用 命令 行 如 下 : 
procinfo [-f] [-d] [-D] [-n sec] [-f file] 
表 2-12 描 述 了 不 同 的 选项 ， 用 于 修改 procinfo 显 示 样本 的 输出 和 频率 。 


表 2-12 procinfo 命 令 行 选项 


选 项 说 明 
—f 全 屏 运 行 procinfo 

-d | “显示 样本 统计 信息 的 变化 ， 而 非 总 和 

-D 显示 统计 信息 的 总 和 ， 而 非 变 化 率 

-n sec | 样本 之 间 停 顿 的 秒 数 

-Ffile 将 procinfo 的 输出 发 送 到 文件 


表 2-13 给 出 了 procinfo 收 集 的 CPU 统计 信息 。 
表 2-13 procinfo CPU 统计 信息 


洗 项 说 明 


user CPU 花费 的 总 的 用 户 时 间 ， 形 式 为 天 、 小 时 和 分 钟 
nice CPU 人 花费 的 总 的 友好 时 间 ， 形 式 为 天 、 小 时 和 分 钟 
system CPU 花费 的 总 的 系统 时 间 ， 形 式 为 天 、 小 时 和 分 钟 
idle CPU 花费 的 总 的 空 亲 时间， 形式 为 天 、 小 时 和 分 钟 
irq 0-N 显示 irq 的 编号 ， 已 经 局 动 的 次 数 ， 以 及 哪个 内 核 驱 动 程序 应 对 其 负责 


与 Vmstat 以 及 top 一 样 ，procinfo 是 一 个 低 开 销 的 俞 令 ， 适 合 于 让 其 自行 在 控制 全 或 屏幕 窗口 运行 。 它 能 够 很 好 地 反映 系统 
的 健康 和 性 能 。 


2.2.4.2 ”用 法 示例 


调用 procinfo 时 不 市 任何 命令 选项 将 产生 如 清单 2.12 所 示 的 输出 。 无 参数 ， 则 procinfo 仪 显示 一 屏 状态 信息 并 退出 。 使 用 -n 
second 选 项 让 procinfo 周 期 性 地 更 新 ， 其 作用 会 更 大 。 这 能 使 你 查看 到 系统 性 能 的 实时 变化 。 


清单 2.12 


[ezolt@scrffy ~/mail]$ procinfo 
Linux 2.4.18-3bigmem (bhcompile@daffy) (gcc 2.96 20000731 ) #1 4CPU [scrffy] 


Memory : Total Used Free Shared Buffers Cached 
Mem: 1030784 987776 43008 0 35996 517504 
Swap: 2040244 17480 2022764 


Bootup: Thu Jun 3 09:20:22 2004 Load average: 0.47 0.32 0.26 1/118 10378 


USenr : 3:18:53.99 2.7%5 page in : 1994292 disk 1: 20r Ow 
nice : 0:00:22.91 0.0% page out: 2437543 disk 2: 247231r 131696w 
system: 3:45:41.20 3.1% Sswap in : 996 
idle : 4d 15:56:17.19 94.0% swap out: 4374 
uptime: 1d 5:45:18.80 context ; 64608366 


irq 0: 10711880 timer 1Irq 12: 1319185 PS/2 Mouse 


irg 1: 94931 keyboard irqg 14: 7144432 ide0 


irq 2: 0 cascade [4] irqg 16: 16 aic7XXX 

irq 3: 1 irg 18: 4152504 nvidia 

irgq 4: 1 irqg 19: 0 usb-uhci 

irgq 6: 2 irqg 20 4772275 e51371 

rg Fs 1 irg 22: 384919 aic7xxx 

irq 8: 1 rtc irg 23: 3797246 usb-uhci, eth0 


如 同 你 在 清单 2.12 中 所 见 ，procinfo 为 系统 提供 了 不 错 的 总 移 。 从 用 户 、nice、 系 统 和 空 | 内 时 间 ， 我 们 再 次 友 现 ， 系 统 不 是 
很 忙 。 一 个 值得 注意 的 有 趣 现 象 是 ，procinfo 表 明 系 统 空 内 时 间 比 其 运行 时 间 (用 uptime 表 示 ) 还 要 多 。 这 是 因为 系统 实际 上 
有 4 个 CPU， 因 此 ， 对 于 一 天 的 墙 钟 时 间 而 言 ，CPU 时 间 已 经 过 去 了 四 天 。 平 均 负 载 证明 系 统 近期 相对 没有 多 少 工作 。 在 过 去 的 
时 间 里 ， 平 均 而 言 ， 系 统 准 备 运行 的 进程 还 不 到 一 个 ; 平均 负载 为 0.47 意 味 着 单个 进程 准备 运行 的 时 间 只 有 479%。 对 于 有 四 个 
CPU 的 系统 来 说 ， 将 会 浪费 大 量 的 CPU 能 

procinfo 还 给 我 们 提供 了 很 好 的 视图 来 说 明 系 统 中 的 哪个 设备 导致 了 中 断 。 可 以 看 到 显卡 (nvidia) 、 硬 盘 控 制 器 

(ide0) 、 以 太 网 设备 (eth0) 以 及 声卡 (es1371) 的 中 断 数 量 相对 较 高 。 这 些 情况 一 般 出 现在 台式 工作 站 上 。 


procinfo 的 优势 是 将 许多 系统 级 性 能 统计 信息 放 企 一 个 屏幕 里 ， 让 你 能 了 解 系统 整体 执行 情况 。 它 缺乏 网 络 和 磁盘 性 能 的 详 
细 人 和 信息， 但 能 为 CPU 和 内 存 性 能 的 统计 信息 提供 恨 好 的 细 书 。 一 个 可 能 很 重要 的 限制 是 ，CPU 处 于 iowait、irq 或 softirq 模 式 时 


procinfo 不 会 进行 报告 。 


2.2.5 gnome-system-monitor 

gnome-system-monitor 在 很 多 方面 都 可 以 说 是 top 的 图 形 化 。 它 使 你 能 以 图 形 方 式 监控 各 个 进程 ， 并 在 显示 图 表 的 基础 上 
观察 系统 负载 。 

2.2.5.1 ”CPU 性 能 相关 的 选项 


gnome-system-monitor 可 以 从 Gnome 菜 单调 用 。 (Red Hat 9 及 其 以 上 版 本 中 ， 选 择 菜 单 System Tools 一 System 
Monitor。) 不 过 ， 它 也 可 以 用 如 下 命令 调用 : 


gnome -system-monitor 
gnome-system-monitor 没 有 相关 命令 行 选项 来 影响 CPU 性 能 测量 。 但 是 ， 有 些 显示 的 统计 信息 可 以 通过 选择 gnome- 
system-monitor 的 Edit 一 Preferences 荣 单项 进行 修改 。 
2.2.5.2 ”用 法 示例 


当 你 局 动 gnome-system-monitor 时 ， 它 会 创建 与 图 2-1 相 似 的 窗口 。 该 窗口 显示 了 特定 进程 使 用 的 CPU 和 内 仓 总 量 信息 。 
它 还 显示 了 进程 乙 间 父 / 子 关 系 的 信息 。 
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图 2-2 显 示 了 系统 负载 和 内 存 使 用 率 的 图 形 视图 。 从 这 一 点 可 以 真正 区 分 gnome-system-monitor 与 top。 你 可 以 很 容易 地 
查看 系统 当前 状态 ， 以 及 与 之 前 状态 的 对 比 。 


gnome-system-monitor 提 供 的 数据 图 形 视 图 能 够 更 容易 更 迅速 地 确定 系统 状态 及 其 行为 随时 间 的 变化 。 它 还 能 更 轻松 地 
浏览 系统 级 进程 信息 。 


2.2.6 mpstat (多 处 理 器 统计 ) 


mpstat 是 一 个 相当 简单 的 命令 ， 向 你 展示 随 着 时 间 变 化 的 CPU 行为 。mpstat 最 大 的 优点 是 在 统计 信息 的 旁边 显示 时 间 ， 由 
此 ， 你 可 以 找 出 CPU 使 用 率 与 时 间 的 关系 。 


如 果 你 有 多 个 CPU 或 超 线程 CPU，mpstat 还 能 够 把 CPU 使 用 率 按 处 理 器 进行 区 分 ， 因 此 你 可 以 友 现 与 其 他 处 理 器 相 比 ， 是 
否 某 个 处 理 器 做 了 更 多 的 工作 。 你 可 以 选择 想 要 监控 的 单个 处 理 器 ， 也 可 以 要 求 mpstat 对 所 有 的 处 理 器 都 进行 监控 。 


2.2.6.1 CPU 性 能 相关 的 选项 
mpstat 可 以 用 如 下 命令 行 调 用 : 
mpstat [ -P{fcpulALL }] [delay [count ] ] 


和 之 前 一 样 ，delay 指 是 了 及 样 间 隅 ，count 指 定 了 及 样 次 数 。 表 2-14 解 释 了 mpstat 命 令 行 选项 的 含义 。 


表 2-14 mpstat 命 令 行 选项 
选项 说 。 明 
pW | A 告诉 mpstat 监控 哪个 CPU，cpu 取 值 范 围 为 0~ (CPU 总 数 -1 ) 
tee 旨 明 mpstat 在 采样 之 间 应 等 待 的 时 长 
mpstat 提 供与 其 他 CPU 性 能 工具 相似 的 信息 ， 但 是 ， 它 允许 将 信息 按照 特定 系统 中 的 单个 处 理 器 进行 分 类 。 表 2-15 给 出 了 
mpstatxz 持 的 选项 。 


表 2-15 mpstat CPU 统计 信息 


选 项 说 明 

user 六 一 个 采样 中 CPU 消耗 在 用 户 时 间 上 的 百分比 

nice ] 前 一 个 采样 中 CPU 执行 低 优先 级 (或 nice) 进程 消耗 时 间 的 百分比 
system 前 一 个 采样 中 CPU 消耗 在 系统 时 间 上 的 百分比 

iowait ”| 前 一 个 采样 中 CPU 等 待 IO 消耗 时 间 的 百分比 

irq 前 一 个 采样 中 CPU 处 理 中 断 消 耗 时 间 的 百分比 

rd 前 一 个 采样 中 ， 中 断 处 理 后 ， 内 核 完 成 所 需 工 作 消 耗 的 CPU 时 间 百 分 比 
idle | 前 一 个 采样 中 CPU 空闲 时 间 百分比 


mpstat 是 一 种 很 好 的 工具 ， 可 以 分 类 提供 每 个 处 理 器 的 执行 情况 。 由 于 mpstat 给 出 了 每 个 CPU 的 明细 ， 因 此 你 可 以 识别 是 
人 否 有 哪个 处 理 器 正 逐渐 出 现 超 负载 情况 。 


2.2.6.2 ”用 法 示例 
特务 ， 我 们 要 求 mpstat 显 示 处 理 器 编号 为 0 的 CPU 的 统计 信息 ， 如 清单 2.13 所 示 。 


清单 2.13 


[ezolt@scrffy sysstat.5.1.1]$ ./mpstat -P @ 了 10 
Linux 2.6.8-1.521smp (scrffy) “1012012004 


07:12:02 PM CPU  %USer  %nNnice 和 SYS %iowait %irg %soft  %idle intrj/s 
@7:12:@83 PM 0 9.80 0.00 1.96 0.98 0.00 0.00 87.25 1217.65 
07;12:04 PM @ 1 .81 0.00 0.00 0.00 @.00 0.00 98.99 1112.12 
@7:12:@05 PM 0 0.99 0.00 0.00 0.00 0.00 0.00 99.01 1055.45 
人 7 12:06 PM @ 0.00 0@.00 @.00 0.00 0.00 .00 100 00 1072 .00 
@7:12:@7 PM @ @.00 他 .00 @.00 @ ,00 0.00 .8600 106060.00 1@75.76 
07:12:08 PM @ 1 .00 0.00 0.00 0.00 0.00 0.00 99.00 10867.00 
@7:12:09 PM @ 4.90 @ .00 3.92 @.00 6 .00 d,98 30 .20 1045 ,1 由 
@7:12:10 PM @ 0.00 0.00 0.00 0 ,00 0.00 0.00 100.00 1069 .70 
@7:12:11 PM @ @ .99 8.00 @.99 0.00 0 .00 0.00 98.02 1070,.30 
07:12:12 PM @ 3.00 0.080 4.00 0.00 0 .00 0.00 93.00 1067 ,00 
Average : @ 2,19 0.00 1 .1 @.108 0.00 0.10 96.51 1085 .34 


清单 2.14 显 示 了 对 典型 无 负载 超 线 程 CPU 使 用 相同 命令 产生 的 结果 。 你 可 以 看 到 所 有 显示 出 来 的 CPU 统计 数据 。 输 出 中 有 
个 有 趣 的 现象 ， 即 其 中 一 个 CPU 似乎 处 理 了 所 有 的 中 断 。 如 果 系 统 有 很 重 的 MO 负载 ， 而 全 部 中 断 又 都 是 由 一 个 处 理 器 处 理 ， 那 
么 这 可 能 就 是 钼 颈 ， 因 为 一 个 CPU 超 负 人 符 ， 而 其 他 CPU 则 在 等 待 。 如 果 一 个 CPU 忙于 处 理 所 有 的 中 断 以 全 于 没有 空 朵 时 间 ， 而 
与 此 同时 ， 其 他 处 理 器 则 处 于 空 闪 状态 ， 那 么 你 可 以 用 mpstat 发 现 这 种 情况 。 


清单 2.14 


[ezolt@scrffy sysstat-.5.1.1]$ ./mpstat -P ALL 1 2 
Linux 2.6.8-1.521smp (scrffy) 1012012004 


07:13:21 PM CPU %user  %nice %SySs %iowait %irg %soft sidle intr/s 
07:13:22 PM all 3.98 0.00 1.00 0.25 0.00 0.00 94 .78 1322 .00 
07:13:22 PM 0 2.00 0.00 0.00 1.00 0.00 0.00 97 .00 1137 .00 
07:13:22 PM 1 6.00 0.00 2.00 0.00 0.00 0.00 93 .00 185 .00 
07:13:22 PM 2 1.00 0.00 0.00 0.00 0.00 0.00 99 .00 0.00 
07:13:22 PM 3 8.00 0.00 1.00 0.00 0.00 0.00 91 .00 0.00 


07:13:22 PM CPU %user  %nice %SYS %iowait %irq %soft %idle intr/s 
07:13:23 PM all 2.00 0.00 0.50 0.00 0.00 0.00 97.50 1352 .53 
07:13:23 PM 0 0.00 0.00 0.00 0.00 0.00 0.00 100.00 1135.35 
07:13:23 PM 1 6.06 0.00 2.02 0.00 0.00 0.00 92.93 193 .94 


07:13:23 PM 2 0.00 0.00 0.00 0.00 0.00 0.00 101.01 16 ,16 
07:13:23 PM 3 1.01 0.00 1.01 0.00 0.00 0.00 100.00 7.07 
Average : CPU %user %nice %SYySs %iowait %irq %soft %idle intr/s 
Average : all 2 .99 0.00 0.75 0.12 0.00 0.00 96.13 1337 .19 
Average : 0 1.01 0.00 0.00 0.50 0.00 0.00 98.49 1136.18 
Average : 1 6.03 0.00 2.01 0.00 0.00 0.00 92.96 189 .45 
Average : 2 0.50 0.00 0.00 0.00 0.00 0.00 100.00 8.04 
Average : 3 4.52 0.00 1.01 0.00 0.00 0.00 95.48 3 .52 


mpstat 可 以 用 来 确定 CPU 是 否 得 到 区 分 利用 ， 以 及 使 用 情况 是 人 否 相对 均衡 。 通 过 观察 每 个 CPU 处 理 的 中 断 数 ， 有 可 能 上 友 现 
其 中 的 不 均衡 。 如 何 控制 中 断路 由 的 详细 信息 参见 Documentation/IRQ-affinity.txt 下 的 内 核 源码 。 


2.2.7 Sar (系统 活动 报告 ) 
sar 用 另 一 种 方法 来 收集 系统 数据 。sar 能 有 效 地 将 收集 到 的 系统 性 能 数据 记录 到 二 进 制 文件 ， 之 后 ， 可 以 重播 这 些 文件 
sar 是 一 种 低 开 销 的 、 记 录 系 统 执 行情 况 信 息 的 方法 。 


sar 命 令 可 以 用 于 记录 性 能 信息 ， 回 放 之 前 的 记录 信息 ， 以 及 显示 当前 系统 的 实时 信息 。sar 命 令 的 输出 可 以 进行 格式 化 ， 使 
之 易于 导入 数据 库 ， 或 是 输送 给 其 他 Linux 命 令 进行 处 理 。 


2.2.7.1 CPU 性 能 相关 的 选项 
sar 可 以 使 用 如 下 命令 行 调用 : 


sar [options] [ delay [ count ] | 


尽管 sar 的 报告 涉及 Linux 多 个 不 同 领域 ， 其 统计 数据 有 两 种 不 同 的 形式 。 一 组 统计 数据 是 采样 时 的 瞬时 值 。 另 一 组 则 是 目 上 
一 次 采样 后 的 变化 值 。 表 2-16 解 释 了 sar 的 命令 行 选项 。 


选 项 说 明 

一 c 报告 每 秒 创 建 的 进程 数量 

-I {irq | SUM | ALL | xALL } 报告 系统 已 发 生 中 断 的 速率 

-P { cpu | ALL} 该 项 确定 从 哪个 CPU 收集 统计 信息 。 如 果 不 指 定 ， 则 报告 系统 整体 情况 

ed 报告 机 需 的 运行 队列 长 度 和 平均 负载 

一 U 报告 系统 的 CPU 使 用 情况 (该 项 为 默认 输出 ) 

一 W 报告 系统 中 已 发 生 的 上 下 文 切换 次 数 
-ofiiename | 指定 保存 性 能 统计 信息 的 二 进 制 输出 文件 名 

-f filename 指定 性 能 统计 信息 的 文件 名 

rp | 需 等 待 的 采样 间隔 时 间 

count 记录 的 样本 总 数 


人 
sar 提 供 的 系统 级 CPU 性 能 统计 数据 集 与 我 们 在 进程 工具 中 看 到 的 类 似 (名 字 不 同 ) 。 如 表 2-17 所 示 。 


表 2-17 sat CPU 统计 信息 


选 项 说 明 
user 前 一 个 采样 中 CPU 消耗 在 用 户 时 间 上 的 百分比 
nice 前 一 个 采样 中 CPU 执行 低 优先 级 (或 nice) 进程 消耗 时 间 的 百分比 
system 前 一 个 采样 中 CPU 请 耗 在 系统 时 间 上 的 百分比 
iowait 前 一 个 采样 中 CPU 等 待 VO 消耗 时 间 的 百分比 
idle 前 一 个 来 样 中 CPU 空 闪 时 间 百 分 比 
runq—sz 采样 时 ,运行 队列 的 长 度 
Blist=sz 采样 时 的 进程 (运行 ， 睡 虐 或 等 待 WO) 数 
1davg-—1 前 1 分 钟 的 平均 负载 
1davg—5 前 5 分 钟 的 平均 负载 
ladavg—15 前 15 分 钟 的 平均 人 钾 载 
proc/s 每 秒 新 建 进程 数 (该 项 等 同 于 vmstat 中 的 forks 项 ) 
cswch 每 秒 上 下 文 切换 次 数 
intr/s 每 秒 触 发 的 中 断 次 数 


sar 最 显著 的 优 为 之 一 是 ， 它 使 你 能 把 不 同类 型 时 间 蕉 系统 数据 保 仔 到 日 志文 件 ， 以 便 日 后 检索 和 审查 。 当 试图 找 出 特定 机 
器 在 特定 时 间 出 现 故 障 的 原因 时 ， 这 个 特性 被 证 明 是 非常 便利 的 。 


2.2.7.2 ”用 法 示例 


清单 2.15 显 示 的 第 一 个 命令 要 求 每 秒 有 三 个 CPU 及 样 ， 其 结果 保存 到 二 进 制 文件 /tmp/apache_test。 该 命令 没有 任何 可 视 
化 输出 ， 完 成 即 返 回 。 


清单 2.15 
[ezolt@wintermute sysstat-5.0.2]$ sar -0 /tmp/apache test 1 3 
言 息 保存 到 /tmp/apache_test 文 件 后 ， 我 们 就 能 以 各 种 格式 显示 它 。 默 认 格式 为 人 类 可 读 ， 如 清单 2.16 所 示 。 该 清单 显示 
与 其 他 系统 监控 命令 类 似 的 信息 ， 我 们 可 以 看 出 处 理 器 在 特定 时 间 是 如 何 消耗 其 时 间 的 。 


清单 2.16 


[ezolt@wintermute sysstat-5.0.2]$ sar -f /tmp/apache test 
Linux 2.4.22-1.2149.nptl] (wintermute.phil.org) 03/20/04 


17:18:34 CPU %USer snice %system  %iowait %lidle 
Elgg all 90 .00 0.00 10 .00 0.00 0.00 
17:18:36 all 95 .00 0.00 5.00 0.00 0.00 
下 all 92 .00 0.00 6.00 0.00 2.00 
Average : all 92 .33 0.00 7.00 0.00 0.67 


不 过 ，sar 还 可 以 将 统计 数据 输出 为 一 种 能 轻松 导入 关系 数据 库 的 格式 ， 如 清单 2.17 所 示 。 这 有 助 于 保存 大 量 的 性 能 数据 。 
一 旦 将 其 导入 到 关系 数据 库 ， 融 可 以 用 所 有 的 天 系数 据 库 工具 对 这 些 性 能 数据 进行 分 析 。 


清单 2.17 


[ezolt@wintermute sysstat-5.0.2]$ sar -f /tmp/apache test -H 

wintermute.phil.org;1;2004-03-20 22:18:35 UTC;-1;90.00;0.00;10.00;0.00;0.00 
wintermute.phil.org;1;2004-03-20 22:18:36 UTC;-1;95.00;0.00;5.00;0.00;0.00 
wintermute.phil.org;1;2004-03-20 22:18:37 UTC;-1;92.00;0.00;6.00;0.00;2.00 


最 后 ，sar 还 有 一 种 易于 被 标准 Linux 工 具 ， 如 awk，perl，python 或 grep， 解 析 的 统计 数据 输出 格式 。 如 清单 2.18 所 示 ， 
这 种 输出 可 以 被 送 入 脚本 ， 该 脚本 会 引 砾 有趣 的 事件 ， 甚 至 有 可 能 分 析出 数据 的 不 同 趋势 。 


清单 2.18 


[ezolt@wintermute sysstat-.5.0.2]$ sar -f /tmp/apache test -h 


wintermute.phil.org 1 1079821115 all %UsSer 90.00 
wintermute.phil.org 1 1079821115 all nice 0.00 
wintermute.phil.org 1 1079821115 all %system 10.00 
wintermute.phil.org 1 1079821115 all slLO0Walt 0.00 
wintermute.phil.org 1 1079821115 all %idle 0.00 
wintermute.phil.org 1 1079821116 all sUSer 95.00 
wintermute.phil.org 1 1079821116 all snice 0.00 
wintermute.phil.org 1 1079821116 all %system 5.00 
wintermute.phil,.org 1 1079821116 all Siowait 0@.00 
wintermute.phil.org 1 1079821116 all %idle 0.00 
Wintermute,.phil.org 1 1079821117 all %UsSer 92.00 
wintermute,.phil.org 1 1079821117 all %N1ice .008 
wintermute.phil.org 1 1079821117 all %System 6.00 
wintermute.phil.org 1 1079821117 all ioWwait 0.00 
wintermute.phil.org 1 1079821117 all ldle 2.00 


除了 将 信息 记录 到 文件 之 外 ，sar 还 可 以 用 于 实时 系统 观察 。 在 清单 2.19 所 示 的 例子 中 ，CPU 状 态 被 采样 了 三 次 ， 采 样 间隔 
时 间 为 一 秒 。 


清单 2.19 


[ezolt@wintermute sysstat-5.0.2]$ sar 1 3 
Linux 2.4.22-1.2149.nptl (wintermute.phil.org) 03/20/04 


17:27:10 CPU %USer snice %system  %iowait %idle 
Teel all 96 .00 0.00 4.00 0.00 0.00 
bee le all 98.00 0.00 2.00 0.00 0.00 
Treen all 92 .00 0.00 8.00 0.00 0 .00 
Average :; all 95 .33 0.00 4.67 0.00 0.00 


默认 显示 的 目的 是 展示 CPU 的 信息 ， 但 是 也 可 以 显示 其 他 信息 。 比 如 ，sar 可 以 显示 每 秒 的 上 下 文 切换 次 数 ， 以 及 交换 的 内 
存 页 面 数 。 在 清单 2.20 中 ，sar 及 样 了 两 次 信息 ， 间 隔 时 间 为 一 秒 。 这 次 ， 我 们 要 求 sar 显 示 每 秒 上 下 文 切 换 的 数量 以 及 创建 的 进 
程 数 。 我 们 还 要 求 sar 给 出 平均 负载 的 信息 。 可 以 看 出 来 ， 本 例 中 的 机 器 有 163 个 进程 在 内 存 中 ， 但 都 没有 运行 。 过 去 的 一 分 钟 
平均 有 1.12 个 进程 等 待 运行 。 


清单 2.20 


[ezolt@scrffy manuscript]$ sar -WwW -c :-Q 1 2 
Linux 2.6.8-1.521smp (scrffy) 1012012004 


08:23:29 PM proc/s 
08:23:30 PM 0.00 


08:23:29 PM cswchj/s 
08:23:30 PM 594 .00 


08:23:29 PM “rung-SzZ plist-sz ldavg-1 ldavg-5 ldavg-15 


08:23:30 PM 0 163 Ficle Le 1.17 


08:23:30 PM proci/s 
08:23:31 PM 0.00 


08:23:30 PM cswch/s 
08:23:31 PM 812.87 


08:23:30 PM runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 


08:23:31 PM 0 163 aie 1.17 Li 
Average: proc/s 
Average: 0.00 
Average : cswch/s 
Average: 703 .98 
Average : runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 
Average: 0 163 ql Em 1 


如 你 所 见 ，sar 是 一 个 强大 的 工具 ， 能 够 记录 多 种 不 同 的 性 能 统计 信息 。 它 提供 了 Linux 友 好 界面 ， 使 你 可 以 轻松 地 提取 和 分 
析 性 能 数据 。 


2.2.8 oprofile 


oprofile 是 性 能 工具 包 ， 它 利用 几乎 所 有 现代 处 理 器 都 有 的 性 能 计数 器 来 跟 路 系统 整体 以 及 单个 进程 中 CPU 时 间 的 消耗 情 
况 。 除 了 测量 CPU 周 期 消耗 在 哪里 之 外 ，oprofile 还 可 以 测量 关于 CPU 执 行 的 非常 底层 的 信息 。 根 据 由 底层 处 理 器 支持 的 事件 ， 
它 可 以 测量 的 内 容 包括 : cache 缺失、 分 支 预 测 错误 和 内 存 引 用 ， 以 及 浮 点 操作 。 


oprofile 不 会 记录 友 生 的 每 个 事件 ， 相 反 ， 它 与 处 理 器 性 能 硬件 一 起 工作 ， 每 count 个 事件 采样 一 次 ， 这 里 的 count 是 一 个 
数值 ， 由 用 户 在 启动 oprofile 时 指定 。count 的 值 越 低 ， 结 果 的 准确 度 越 高 ， 而 oprofile 的 开销 越 大 。 若 count 保 持 在 一 个 合理 的 
数值 ， 那 么 ，oprofile 不 仅 运 行 开 销 非 常 低 ， 并 且 还 能 以 令 人 惊讶 的 准确 性 描述 系统 性 能 。 


采样 是 非 囊 强大 的 ， 但 使 用 时 要 小 心 一 些 不 明显 的 陷阱 。 首 务 ， 采 样 可 能 会 显示 你 有 90% 的 时 间 化 在 了 一 个 特定 的 例 程 上 ， 
但 它 不 会 显示 原因 。 一 个 特定 例 程 消耗 了 大 量 周 期 有 两 种 可 能 的 原因 。 其 一 ， 该 例 程 可 能 是 瓶 须 ， 其 执行 需要 很 多 时 间 。 但 是 ， 
也 可 能 例 程 的 执行 时 间 是 合理 的 ， 而 其 被 调用 的 次 数 非常 高 。 通 剃 有 两 种 途径 可 以 友 现 究竟 是 哪 一 种 情况 : 通过 得 看 采样 找 出 特 
别 热门 的 行 ， 或 是 通过 编写 代码 来 计算 例 程 被 调用 次 数 。 

采样 的 第 二 个 问题 是 你 永远 无 法 十 分 确定 一 个 尔 数 是 从 哪里 被 调用 的 。 即 使 你 已 经 搞 明 日 它 被 调用 了 很 多 次 ， 并 且 已 经 跟 味 
到 了 所 有 调用 它 的 遂 数 ， 但 也 不 一 定 清 楚 其 中 哪个 消 数 完成 了 绝 大 多 数 的 调用 。 


2.2.8.1 CPU 性 能 相关 的 选项 


oprofile 实 际 上 是 一 组 协同 工作 的 组 件 ， 用 于 收集 CPU 性 能 统计 信息 。oprofile 主 要 有 三 个 部 分 : 


: optofile 核 心 模 块 控制 处 理 器 并 允许 和 禁止 采样 。 
: oprofile 后 侣 模块 收集 采样 ， 并 将 它们 保存 到 磁盘 。 
oprofile 报 告 工具 获取 收集 的 采样 ， 并 向 用 户 展 示 它 们 与 在 系统 上 运行 的 应 用 程序 的 关系 。 
oprofile 工 具 包 将 驱动 器 和 后 台 操 作 隐藏 在 opcontrol 命 令 中 。opcontrol 命 令 用 于 选择 处 理 器 采样 的 事件 并 局 动 采样 。 
进行 后 台 控 制 时 ， 你 可 以 使 用 如 下 命令 行 调用 opcontrol: 
opcontrol [--start] [--stop] {- -dump] 


此 选项 的 控制 (性 能 分 析 后 台 进 程 ) 使 你 能 开始 和 停止 采样， 并 将 样本 从 守护 进程 的 内 存 导入 磁盘 。 采 样 时 ，oprofile 后 人 台 
模块 将 大 量 的 采样 保存 在 内 部 缓冲 区 。 但 是 ， 它 只 能 分 析 那 些 已 经 写 入 (或 导入 ) 磁盘 的 样本 。 写 磁盘 的 开销 可 能 会 很 大 ， 
此 ，oprofile 只 会 定期 执行 这 个 操作 。 其 结果 融 是 ， 运 行 测试 并 用 oprofile 分 析 后 ， 可 能 不 会 马上 得 到 结果 ， 你 需要 等 待 ， 直 到 
后 台 将 缓冲 区 写 入 磁盘 。 当 你 想 要 立即 开始 分 析 时 ， 这 点 是 很 赴 人 搁 头 的 ， 因 此 ，opcontrol 命 令 能 让 你 禁止 将 采样 从 oprofile 
后 人 台 的 内 部 缓冲 区 导入 到 磁盘 。 这 将 使 你 能 在 测试 结束 后 ， 立 刻 开 始 性 能 调 至。 


表 2-18 介 绍 了 opcontrol 程 序 的 选项 ， 它 们 使 你 能 控制 后 谷 操作 。 


表 2-18 ”opcontrol 后 人 台 控 制 


选 项 说 明 
和 奉 当 前 处 理 如 未 使 用 默认 事件 ， 则 开始 分 析 
-d/—-— dump ] 将 核心 采样 缓冲 区 当前 采样 信息 叶 人 磁盘 
~- — stop 停止 分 析 


默认 情况 下 ，oprofile 按 给 定 频 率 选 择 一 个 事件 ， 这 个 频率 对 于 你 在 运行 的 处 理 器 和 内 核 来 说 是 合理 的 。 但 是 ， 比 起 默认 事 
件 来 ， 还 有 更 多 的 事件 可 以 监控 。 当 你 列 出 并 选择 了 一 个 事件 后 ，opcontrol 将 用 如 下 命令 行 调 用 : 


opcontrol [-:-list-events] [-event=:name:count:unitmask:kernel:user:] 


事件 况 明 使 你 可 以 选择 采样 哪个 事件 ， 该 事件 的 采样 频率 ， 以 及 采样 上 友 生 在 内 核 空 间 、 用 户 空 间或 同时 企 这 两 个 空间 。 表 2- 
19 介 绍 了 opcontrol 的 命令 行 选项 ， 它 们 使 你 能 选择 不 同 的 事件 进行 采样 。 


表 2-19 opcontrol 事 件 处 理 


选 项 说 明 
-1/ - - 1ist-events 列 出 处 理 器 可 以 采样 的 不 同事 件 


用 于 指定 被 采样 的 事件 。 事 件 名 必须 为 处 理 需 支持 的 事件 之 一 。 可 用 事件 
可 以 从 --1ist-events 选项 获取 。 人 参数 count 定义 事件 每 发 生 count 次 ， 处 


-event=:name:count : 理 霸 将 采样 一 次 。unitmask 修改 将 要 被 采样 的 事件 。 比 如 ， 如 果 你 采样 “从 内 
unitmask:kernel:user: 存 读 ”， 那 么 单元 屏蔽 (unit mask) 可 以 让 你 只 选择 那些 cache 未 命中 的 读 操 


作 。 参 数 kernel 指明 ， 当 处 理 器 运行 于 内 核 空 间 时 oprofile 是 否 采样 。 参 数 
user 指明 ， 当 处 理 需 运行 于 用 户 空 间 时 oprofile 是 否 采 样 
— — vmlinux=kernel 说 明 oprofile 对 不 同 的 内 核 明 数 采 样 将 使 用 哪个 非 压缩 内 核 映 像 


收集 并 保存 样本 后 ，oprofile 提 供 另 一 种 不 同 的 工具 opreport， 该 工具 使 你 能 查看 已 收集 的 样本 。opreport 的 调用 命令 行 
如 下 : 


opreport [-r] [-t] 


通常 ，opreport 显 示 所 有 系统 收集 到 的 样本 ， 以 及 哪些 可 执行 程序 引起 的 这 些 样 本 (包括 内 核 ) 。 样 本 数 最 多 的 可 执行 线 
程 排 在 第 一 位 ， 其 后 为 所 有 有 样本 的 可 执行 线程 。 在 一 个 典型 系统 中 ， 排 在 列表 前 面 的 是 拥有 大 多 数 样 本 的 少数 可 执行 线程 ， 而 
大 量 的 可 执行 线程 只 贡献 了 数量 很 少 的 样本 。 针 对 这 种 情况 ，opreport 人 允许 你 设置 阅 值 ， 只 有 样本 数量 百分比 达到 或 超过 立 值 
的 可 执行 线程 才能 显示 。 同 时 ，opreport 还 可 以 将 可 执行 线程 的 显示 上 顺序 倒 过 来 ， 那 些 拥有 最 多 样本 数 的 将 最 后 显示 。 这 种 方 
式 下 ， 最 重要 的 数据 显示 在 最 后 ， 那 么 它 束 不 会 深 过 屏幕 。 


表 2-20 说 明了 opreport 的 命令 行 选项 ， 它 们 使 你 能 定制 来 样 输出 的 格式 。 
表 2-20 ”opreport 报 告 格式 


选 ”项 风骨 
多 事件 的 映像 最 先 显 示 
- - threshold / -tt 使 opreport 只 显示 样本 比例 达到 percentage 或 更 局 的 映像 。 该 项 适用 
[percentage] 条 件 为 : 很 多 映像 的 样本 数 非 常 小 ， 而 你 只 对 样本 数量 最 多 的 感 兴 趣 


一 一 reverse-sort /-r 病 倒 显示 顺 厅 。 通 第 ，5| 起 上 上 


再 次 说 明 ，oprofile 是 一 个 复杂 的 工具 ， 给 出 的 这 些 选项 仪 仅 是 oprofile 的 基础 功能 。 在 后 续 章节 中 ， 你 将 学 习 到 oprofile 


更 多 的 功能 。 
2.2.8.2 ”用 法 示例 
oprofile 是 非常 强大 的 工具 ， 但 它 的 安装 有 点 困难 。 附 录 B 指 导读 者 如 何在 几 个 主要 的 Linux 友 行 版 上 安 六 和 运行 oprofile。 


使 用 oprofile 首 先 要 按照 分 析 对 其 进行 设置 。 第 一 条 命令 如 清单 2.21 所 示 ， 用 opcontrol 命 令 告诉 oprofile 工 具 包 一 个 非 压 缩 
的 内 核 映 像 在 什么 位 置 。oprofile 需 要 知道 这 个 文件 的 位 置 ， 以 便 它 将 样本 分 配给 内 核 中 的 确切 函数 。 


清单 2.21 


[root@wintermute root]# opcontrol --vmlinux=/boot/vmlinux-\ 
2.4.22-1.2174.nptlsmp 


设置 了 当前 内 核 的 路 径 后 ， 我 们 可 以 开始 分 析 。 清 单 2.22 中 的 命令 告诉 oprofile 用 默认 事件 开始 采样 。 这 个 事件 根据 处 理 器 
而 变化 ， 对 当前 处 理 器 而 言 ， 这 个 事件 是 CPU _ CLK UNHALTED。 只 要 处 理 器 没有 停止 ， 该 事件 将 会 采样 全 部 CPU 周 期 。 
233869 是 指 每 233869 个 事件 会 采样 处 理 器 正在 执行 的 指令 。 


清单 2.22 


[root@wintermute root]# opcontrol -S 

Using default event: CPU CLK UNHALTED:233869:@:1:1 
Using 10g file /var/lib/oprofile/oprofiled.10og 
Daemon started. 


Profiler running,. 


现在 已 经 开始 采样 后 ， 我 们 想 要 分 析 采 样 结果 。 在 清单 2.23 中 ,我们 用 报告 工具 来 找 出 系统 中 发 生 了 什么 。opreport 报 告 
了 目前 为 止 分 析 的 内 容 。 


清单 2.23 


[root@wintermute root]# opreport 
opreport op fatal error: 
No sample file found: try running opcontrol --dump 


or specify a session containing sample files 


尽管 分 析 已 经 进行 了 一 小 段 时 间 ， 但 当 opreport 表 明 它 无 法 找到 样本 时 ， 我 们 殊 会 停止 。 友 生 这 种 情况 的 原因 是 : 
opreport 命 令 在 磁盘 上 查找 样本 ， 而 oprofile 后 台 程 序 则 在 内 存 中 存储 样本 并 定期 将 其 转 存 到 磁盘 。 当 我 们 向 opreport 请 求 样 
本 清单 时 ， 它 无 法 在 磁盘 上 找到 ， 因 此 融会 报告 没有 友 现任 何 样 本 。 为 了 缓解 这 一 问题 ， 我 们 可 以 通过 在 opcontrol 中 增加 
dump 选 项 来 强制 后 台 程 序 立 刻 转 存 样本 ， 如 清单 2.24 所 示 ， 这 条 命令 使 我 们 能 查看 已 收集 的 样本 。 


清单 2.24 


[root@wintermute root]# opcontrol- -dump 


将 样本 转 存 到 磁盘 后 ， 我 们 再 次 党 试 要 求 oprofile 给 出 报告 ， 如 清单 2.25 所 示 。 这 一 次 ， 我 们 得 到 了 结果 。 报 告 中 包含 了 收 
集 样本 来 源 处 理 器 的 信息 ， 以 及 其 监控 事件 的 类 型 信息 。 然 后 ， 报 告 按 降 序 排列 事件 上 友 生 的 数量 ， 并 列 出 它们 发 生 在 哪个 可 执行 
文件 中 。 我 们 可 以 看 到 ，Linux 内 核 占 据 了 全 部 时 钟 的 50%，emacs 为 14%，libc 为 12%。 可 以 深入 挖掘 可 执行 文件 确定 哪个 函 
数 占据 了 所 有 的 时 间 ， 我 们 将 在 第 4 章 讨 论 这 个 问题 。 


清单 2.25 


[root@wintermute root]# opreport 
CPU: PIII, speed 467.739 MHz (estimated) 


Counted CPU CLK UNHALTED events (clocks processor is not halted) 
with a unit mask of 0x00 (No unit mask) count 233869 


3190 50.4507 vmMlinUuxX-2.4.22-1.2174.nptlsmp 
905 14.3128 emacs 
749 11.8456 libc-:2.,3.2.s0 
4.1278 1d-2.3.2,.S0O 
3.8589 mpg321 
233 3.685@ insmod 
2.7044 libperl.so 
2.0244 bash 
113 1.7871 ext3.0 


当 我 们 局 动 oprofile 时 ， 我 们 只 使 用 了 opcontrol 为 我 们 选择 的 默认 事件 。 每 个 处 理 器 都 有 一 个 非常 丰富 的 可 以 被 监控 的 事 
件 集 。 在 清单 2.26 中 ， 我 们 要 求 opcontrol 列 出 特定 CPU 可 以 获得 的 全 部 事件 。 这 个 清单 相当 长 ， 但 在 其 中 我 们 可 以 看 到 除了 
CPU _CLK UNHALTED 之 外 ， 还 可 以 监控 DATA_MEM_REFS 和 DCU LINES IN。 这 些 是 内 存 子 系统 导致 的 存储 事件 ， 我 们 将 在 


后 续 章节 中 讨论 它们 。 


清单 2.26 


[root@wintermute root]# opcontrol -1 


oprofile: available events for CPU type “PIII 


See Intel Architecture Developer's Manual Volume 3, Appendix A and 


Intel Architecture Optimization Reference Manual (730795.001 ) 


CPU CLK UNHALTED: (counter: 0，1) 
clocks processor is not halted (min count: 6000) 


DATA MEM REFS: (counter: 0, 1) 
all memory references, cachable and non (min count: 500 ) 


DCU LINES IN: (counter: 0, 1) 
total lines allocated in the DCU (min count: 500 ) 


需要 指明 被 监控 事件 的 命令 看 上 去 有 点 麻烦 ， 府 运 的 是 ， 我 们 还 可 以 利用 oprofile 的 图 形 化 命令 oprof _start 以 图 形 方 式 启 动 
和 停止 采样 。 这 使 得 我 们 能 以 图 形 方 式 选 择 想 要 的 事件 ， 而 没有 必要 搞 清 楚 用 准确 的 方式 在 命令 行 中 明确 说 明 想 要 监控 的 事件 。 


在 图 2-3 所 示 的 op_control 例 子 中 ， 我 们 告诉 oprofile 想 要 同时 监控 DATA_MEM_REFS 和 L2_LD 事 件 。DATA_MEM_REFS 事 
件 可 以 告诉 我 们 哪些 应 用 程序 使 用 了 大 量 的 内 存 子 系统 ， 哪 些 使 用 了 L2 cache。 上 有 具体 到 这 个 处 理 器 ， 其 硬件 只 有 两 个 计数 器 可 
用 于 采样 ， 因 此 能 同时 使 用 的 也 只 有 两 个 事件 。 


用 oprofile 的 图 形 界面 收集 样本 后 ， 我 们 现在 可 以 分 析 这 些 数 据 了 。 如 清单 2.27 所 示 ， 我 们 要 求 opreport 显 示 对 其 收集 样本 
的 分 析 ， 所 用 形式 与 监控 周期 时 的 类 似 。 在 本 例 中 ， 我 们 可 以 友 现 libmad 库 占用 了 整个 系统 中 数据 内 存 访问 的 31%， 成 为 内 存 
子 系统 使 用 量 最 大 的 用 户 。 
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清单 2.27 


[root@wintermute root]# opreport 
CPU; PIII, speed 467.739 MHZ {estimated) 


Counted DATA MEM REFS events (all memory references, cachable and non) 
with a unit mask of 0x00 (No unit mask) count 30000 


Counted L2 LD events (number of L2 data loads) with a unit mask of 0xof 
(All cache states) count 233869 


87462 31.7907 17 3.8636 Libmad.so.0.1.0 

24259 8.8177 10 2.2727 mpg321 

23735 8.6272 40 9.0909 Libz.So.1.2.0.7 

17513 6.3656 56 12.7273 libgklayout.so 

17128 6.2257 90 20.4545 vmlinux-2.4.22-1.2174.npt1lsmp 
13471 4.8964 4 0.9091 libpng12.so.0.1.2.2 

12868 4.6773 20 4.5455 libc-2.3.2.s0 


| 


opreport 提 供 的 输出 展示 了 包含 任何 被 采样 事件 的 所 有 系统 库 和 可 执行 程序 。 请 注意 并 非 所 有 的 事件 都 被 记录 下 来 ， 这 是 
因为 我 们 是 在 采样 ， 实 际 上 只 会 记录 事件 的 子 集 。 通 单 这 不 是 问题 ， 因 为 如 果 一 个 特定 的 库 或 可 执行 程序 是 性 能 问题 ， 那 


么 它 很 


可 能 会 导致 高 成 本 事件 友 生 许多 次 。 如 果 玉 样 是 随机 的 ， 这 些 高 成 本 使 事件 最 终 也 会 被 及 样 代码 所 捕获 。 


2.3 “本章 小 结 


本 章 重 点 是 关于 CPU 使 用 情况 的 系统 级 性 能 指标 。 这 些 指标 主要 展示 的 是 操作 系统 和 机 器 是 如 何 运 行 的 ， 而 不 是 某 个 特定 
的 应 用 程序 。 


本 章 展示 了 如 何 使 用 性 能 工具 ， 如 sar 和 vmstat， 从 正在 运行 的 系统 中 抽取 系统 级 性 能 信息 。 这 些 工 具 是 诊断 系统 问题 时 的 
第 一 道 防线 。 它 们 帮助 确定 系统 表现 如 何 ， 以 及 哪个 子 系统 或 应 用 程序 可 能 压力 较 大 。 下 一 章 将 关注 能 分 析 系 统 整 体内 存 使 用 情 
况 的 系统 级 性 能 工具 。 


第 3 草 ”性 能 工具 : 系统 内 存 


本 章 概述 了 系统 级 的 Linux 内 存 性 能 工具 。 本 章 将 讨论 这 些 工具 可 以 测量 的 内 存 统计 信息 ， 以 及 如 何 使 用 各 种 工具 收集 这 些 
统计 结果 。 阅 读本 章 后 ， 你 将 能 够 : 


. 理解 系统 级 性 能 的 基本 指标 ， 包 括 内 存 的 使 用 情况 。 


` 明白 哪些 工具 可 以 检索 这 些 系 统 级 性 能 指标 。 


HAEO 一 
3.1 ”内 存 性 能 统计 信息 
每 一 种 系统 级 Linux 性 能 工具 都 提供 了 不 同 的 方式 来 提取 类 似 的 统计 结果 。 虽 然 没 有 工具 能 显示 全 部 的 信息 ， 但 是 有 些 工 具 


显示 的 统计 信息 是 相同 的 。 本 章 开 始 将 对 这 些 统计 数据 的 详细 信息 进行 说 明 ， 之 后 在 介绍 工具 时 会 引用 这 些 捅 述 。 


3.1.1 ”内 仔 子 系统 和 性 能 
在 现代 处 理 器 中 ， 与 CPU 执行 代码 或 处 理 信息 相 比 ， 向 内 存 子 系统 保存 信息 或 从 中 读 取信 息 一 般 花费 的 时 间 更 长 。 通 常 ， 


在 CPU 执行 指令 或 处 理 数 据 前 ， 它 会 消耗 相当 多 的 空 六 时 间 来 等 待 从 内 人 存 中 取出 指令 和 数据 。 处 理 器 用 不 同 层次 的 高 速 缓 仔 
(cache) 来 弥补 这 种 缓慢 的 内 存 性 能 。 工 具 ， 如 oprofile， 可 以 显示 各 种 处 理 器 高 速 缓存 缺失 所 发 生 的 位 置 。 


3.1.2 ”内 仓 子 系统 (虚拟 仔 依 器 ) 


任何 给 定 的 Linux 系 统 都 有 一 定 容量 的 RAM 或 物理 内 存 。 在 这 个 物理 内 存 中 寻 址 时 ，Linux 将 其 分 成 块 或 内 存 “ 页 ”。 当 对 
内 人 存 进 分 配 或 传送 时 ，Linux 操 作 的 单位 是 页 ， 而 不 是 单个 字 节 。 在 报告 一 些 内 人 存 统计 数据 时 ，Linux 内 核 报告 的 是 每 秒 页 面 的 数 
量 ， 该 值 根据 其 运行 的 架构 可 以 友 生 变化 。 清 单 3.1 创 建 了 一 个 小 的 应 用 程序 来 显示 当前 以 构 中 每 一 页 的 字 节 数 。 


清单 3.1 


#include <unistd.h> 
int main(int argc, char *argv[]) 
{ 
printf("System page size: %d\n" ,getpagesize!()); 


对 IA32 染 构 而 言 ， 页 面 大 小 为 4B。 极 少数 情况 下 ， 这 些 页 面 大 小 的 内 存 块 会 导致 极 高 的 跟踪 开销 ， 所 以 ， 内 核 用 更 大 的 块 
来 操作 内 存 ， 这 些 块 被 称 为 HugePage (大 页 面 ) 。 它 们 的 容量 为 2048KB， 而 不 是 4KB， 这 大 大 降低 了 管理 房 大 内 存 的 开销 。 
某 些 应 用 ， 如 Oracle， 用 这 些 大 页 面 加 载 内 存 中 的 大 量 数 据 ， 同 时 又 最 小 化 Linux 内 核 的 管理 开销 。 如 果 HugePage 不 能 完全 被 
填 满 ， 束 会 瀛 费 相 当 多 的 内 存 。 一 个 半 填 充 的 普通 页 面 瀛 费 2KB 内 存 ， 而 一 个 半 填 充 的 HugePage 束 会 沪 费 1024KB 的 内 存 。 


Linux 内 核 可 以 分 散 收 集 这 些 物理 页 面 ， 向 应 用 程序 呈现 出 一 个 精心 设计 的 虚拟 内 存 空 间 。 
3.1.2.1 交换 (物理 内 存 不 足 ) 


所 有 系统 RAM 心 三 的 物理 内 存 容量 都 是 固定 的 。 即 使 应 用 程序 需要 的 内 存 容量 大 于 可 用 的 物理 内 存 ，Linux 内 核 仍然 允许 这 
些 程序 运行 。Linux 内 核 使 用 硬盘 作为 临时 存储 器 ， 这 个 硬盘 空间 被 称 为 交换 分 区 (swap space) 。 


尽管 交换 是 让 进程 运行 的 极 好 的 万 法 ,但 它 却 慢 的 要 命 。 与 使 用 物理 内 存 相 比 ， 应 用 程序 使 用 交换 的 速度 可 以 慢 到 一 干 倍 。 
如 果 系 统 性 能 不 佳 ， 确 定 系 统 使 用 了 多 少 交 换 通 党 是 有 用 的 。 


3.1.2.2 ”缓冲 区 (buffer) 和 缓存 (cache) (物理 内 存 太 多 ) 


相反 ， 如 果 你 的 系统 物理 内 存 容量 超过 了 应 用 程序 的 需求 ，Linux 就 会 在 物理 内 存 中 缓存 近期 使 用 过 的 文件 ， 这 样 ， 后 续 访 
问 这 些 文件 时 就 不 用 去 访问 硬盘 了 。 对 要 频繁 访问 硬盘 的 应 用 程序 来 说 ， 这 可 以 显著 加 速 其 速度 ， 显 然 ， 对 经 常 启动 的 应 用 程序 
而 言 ， 这 是 特别 有 用 的 。 应 用 程序 首次 局 动 时 ， 它 需要 从 硬盘 读 取 ; 但 是 ， 如 果 应 用 程序 留 着 缓存 中 ， 那 它 就 需要 从 更 快速 的 物 
理 内 存 读 取 。 这 个 硬盘 缓存 不 同 于 前 面 章节 提 到 的 处 理 器 缓存 。 除 了 oprofile、valgrind 和 kcachegrind 之 外 ， 大 多 数 工具 在 报 
告 “ 缓 存 ” 的 统计 信息 时 实际 指 的 是 硬盘 缓存 。 


除了 高 速 缓 仔 ，Linux 还 使 用 了 额外 的 存储 作为 缓冲 区 。 为 了 进一步 优化 应 用 程序 ，Linux 为 需要 被 写 回 硬盘 的 数据 预 留 了 存 
储 空间 。 这 些 预 留 空间 被 称 为 缓冲 区 。 如 果 应 用 程序 要 将 数据 写 回 硬盘 ， 通 党 需要 花费 较 长 时 间 ，Linux 让 应 用 程序 立刻 继续 执 
行 ， 但 将 文件 数据 保存 到 内 存 组 ;中 区 。 人 在 之 后 的 某 个 时 刻 ， 组 站 区 被 刷新 到 硬盘 ， 而 应 用 程序 可 以 立即 继续 。 


高 速 缓 企 和 缓冲 区 的 使 用 使 得 系统 内 空 亲 的 内 人 存 很 少 ， 这 会 让 人 感到 泄气 ， 但 这 未 必 是 件 坏事 。 黑 认 情况 下 ，Linux 试 图 尽 
可 能 多 的 使 用 你 的 内 存 。 这 是 好 事 。 如 果 Linux 侦 测 到 有 空 闪 内 存 ， 它 就 会 将 应 用 程序 和 数据 缓存 到 这 些 内 存 以 加 速 未 来 的 访 
问 。 由 于 访问 内 存 的 速度 比 访 问 硬盘 的 速度 快 了 几 个 数量 级 ， 因 此 ， 这 就 可 以 显 闭 地 提升 整体 性 能 。 如 果 系 统 需 要 缓存 空间 做 更 
重要 的 事情 ， 那 么 缓存 空间 将 被 擦 除 并 交 给 系统 。 之 后 ， 对 原来 被 缓存 对 象 的 访问 丈 需 要 转向 硬盘 来 满足 。 


3.1.2.3 ”活跃 与 非 活跃 内 存 


活跃 内 存 是 指 当 前 被 进程 使 用 的 内 存 。 不 活路 内存 是 指 已 经 锐 分 配 了 ， 但 暂时 还 未 使 用 的 内 存 。 这 两 种 类 型 的 内 存 没有 本 质 


上 的 区 别 。 需 要 时 ，Linux 找 出 进程 最 近 最 少 使 用 的 内 存 页 面 ， 并 将 它们 从 活跃 列表 移动 到 不 活跃 列表 。 当 要 选择 把 哪个 内 存 页 
交换 到 硬盘 时 ， 内 核 就 从 不 活跃 内 存 列 表 中 进行 选择 。 

3.1.2.4 ”高 端 与 低 端 内 存 

对 拥有 1GB 或 更 多 物理 内 存 的 32 位 处 理 器 (比如 IA32) 来 说 ，Linux 管 理 内 存 时 必须 将 其 分 为 高 端 与 低 端 内 存 。 高 端 内 存 不 
能 和 直接 被 Linux 内 核 访问 ， 而 是 必须 在 使 用 前 映射 到 低 亲 内 存 范 围 内 。64 位 处 理 器 (比如 AMD64/EM6T、Alpha 或 ltanium) 没 
有 这 个 问题 ， 因 为 它们 可 以 直接 寻 址 当前 系统 可 用 的 额外 内 存 。 


3.1.2.5 ”内 核 的 内 存 使 用 情况 (分 卢 ) 


除了 应 用 程序 需要 分 配 内 存 外 ，Linux 内 核 也 会 为 了 记 账 的 目的 消耗 一 定量 的 内 存 。 记 账 包括 ， 比 如 跟 趴 从 网 络 或 磁盘 |/O 
哪些 下 在 休眠 。 为 了 管理 记 账 ， 内 核 有 一 系列 缓 趣 ， 包 售 了 一 个 或 多 个 内 存 分 片 。 每 个 


\ 一 /一 


来 的 数据 ， 以 及 跟踪 哪些 进程 正在 运行 ， 
分 片 为 一 组 对 象 ， 个 数 可 以 是 一 个 或 多 个 。 内 核 消耗 的 内 存 分 片 数量 取决 于 使 用 的 是 Linux 内 核 的 哪些 部 分 ， 而 且 还 可 以 随 着 机 


器 负载 类 型 的 变化 而 变化 。 


3.2 ”Linux 性 能 工具 : CPU 与 内 存 
它们 能 使 你 抽取 前 面 所 述 的 那些 内 人 存 性 能 信息 。 


现在 开始 讨论 性 能 工具 ， 


3.2.1 vmstat (ll) 
尽管 它 的 主要 目的 (如同 下 面 展示 的 一 样 ) 是 提供 虚拟 内 存 系 


如 前 所 见 ，vmstat 能 提供 多 个 不 同方 面 的 系统 性 能 信息 
统 信息 。 除 了 前 一 章 描 述 的 CPU 性 能 统计 信息 外 ， 它 还 可 以 告诉 你 下 述 信息 : 


` 使 用 了 多 少 交换 分 区 。 
“ 物理 内 存 是 如 何 被 使 用 的 。 


“ 有 多 少 空闲 内 存 。 
其 显示 的 统计 数据 ) 在 一 行文 本 中 束 提 供 了 关于 系统 运行 状况 与 性 能 的 丰富 信息 。 


你 可 以 看 到 ，vmstat (通过 其 显 
3.2.1.1 系统 泡 围 内 与 内 和 存 相 关 的 系统 级 选项 
vmstat 除 了 提供 CPU 统计 信息 外 ， 你 还 可 以 通过 如 下 命令 行 调用 vmstat 来 调查 内 存 统计 信息 : 


vmstat [-al [-s] [-m] 
和 前 面 一 样 ， 你 可 以 在 两 种 模式 下 运行 vmstat: 采样 模式 和 平均 模式 。 添 加 命令 行 选项 能 让 你 获得 Linux 内 核 使 用 内 存 的 性 
能 统计 信息 。 表 3-1 给 出 了 vmstat 可 接受 的 选项 。 


表 3-1 vmstat 命令 行 选项 


选 项 说 。 明 
该 项 改变 内 存 统 计 信息 的 默认 输出 以 表示 活跃 / 韭 活 跃 内 存量 ， 而 不 是 缓冲 
区 和 高 速 缓存 使 用 情况 的 信息 
打印 输出 vm 表 。 日 系统 局 动 开 始 的 综合 统计 信息 。 该 项 不 能 用 于 采样 模 
式 ， 它 包含 了 内 存 和 CPU 的 统计 数据 
该 项 输出 内 核 分 片 信 息 。 键 入 cat/proc/s1labinfo 可 以 获得 同样 的 信息 。 信 
息 详 细 展 示 了 内 核 内 存 是 如 何 分 配 的 ， 并 有 助 于 确定 哪 部 分 内 核 消 耗 内 存 最 多 


-s (procps 3.2 或 更 高 版 本 ) 


-m(procps 3.2 或 更 高 版 本 ) 


表 3-2 所 示 列 表 为 vmstat 可 以 提供 的 内 存 统计 信息 。 与 CPU 统计 信息 一 样 ， 当 运行 于 普通 模式 时 ，vmstat 提 供 的 第 一 行 信息 
为 所 有 速率 统计 信息 (so 和 si) 的 均值 以 及 所 有 数字 统计 信息 的 瞬时 值 (swpd、free、buff、cache、active 和 inactive) 。 


表 3-2 与 内 存 相 关 的 vmstat 输 出 统计 信息 


列 说 明 
swpd 当前 交换 到 硬盘 的 内 存 总 量 
free 未 被 操作 系统 或 应 用 程序 使 用 的 物理 内 存 总 量 
系统 缓冲 区 大 小 (单位 为 KB), 或 用 于 存放 等 待 保存 到 硬盘 的 数据 的 内 存 大 小 ( 单 
buff 位 为 KB)。 该 存储 区 允许 应 用 程序 向 Linux 内 核发 出 写 调用 后 立即 继续 执行 (而 不 是 


等 待 直到 数据 被 提交 到 硬盘 ) 
用 于 保存 之 前 从 硬盘 读 取 的 数据 的 系统 高 速 缓存 或 内 存 的 大 小 (单位 为 KB)。 如 果 


aone 应 用 程序 再 次 需要 该 数据 ， 内 核 可 以 从 内 存 而 非 硬盘 抓 取 数 据 ， 由 此 可 提高 性 能 
( 续 ) 
列 说 明 

active 被 使 用 的 活跃 内 存量 。 活 跃 /不 活跃 的 统计 数据 与 缓冲 区 /高 速 缓存 的 是 正 交 的 ; 
缓冲 区 和 高 速 缓存 可 以 是 活跃 的 ， 也 可 以 是 不 活跃 的 

inactive 不 活跃 的 内 存 总 量 (单位 为 KB),， 或 一段 时 间 未 被 使 用 ， 适合 交换 到 硬盘 的 内 存量 

si 上 一 次 采样 中 ， 从 硬盘 进来 的 内 存 交 换 速 率 (单位 为 KB/s) 

so 上 一 次 采样 中 ， 到 人 硬盘 去 的 内 存 交 换 速 率 (单位 为 KB/s) 

pages paged in 从 硬盘 读 和 人 系统 缓冲 区 的 内 存 总 量 (单位 为 页 ) (在 大 多 数 IA32 系统 中 ， 一 页 为 
4KB ) 

pages paged out 从 系统 高 速 缓存 写 到 便 盘 的 内 存 总 量 (单位 为 页 ) (在 大 多 数 IA32 系统 中 ， 一 页 为 
4KB ) 

pages swapped in 从 交换 分 区 读 和 人 系统 内 存 的 内 存 总 量 (单位 为 页 ) 

pages swapped out 从 系统 内 存 写 到 交换 分 区 的 内 存 总 量 (单位 为 页 ) 

used swap Linux 内 核 目 前 使 用 的 交换 分 区 容量 

free swap 当前 可 用 的 交换 分 区 容量 

total swap 系统 的 交换 分 区 总 量 ， 即 used swap 与 free swap 之 和 


对 给 定 机 器 而 言 ，Vvmstat 佣 提供 其 虚拟 仓储 系统 当前 状态 的 恨 好 概况 。 虽 然 它 不 会 为 每 个 可 用 的 Linux 每 次 性 能 统计 数据 提 
供 一 个 完整 且 详 细 的 列表 ， 但 它 给 出 的 简洁 输出 可 以 表明 系统 内 存 整体 上 是 如 何 被 使 用 的 。 


3.2.1.2 用 法 示例 


如 前 面 章节 所 见 ， 清 单 3.2 中 ， 如 果 vmstat 调 用 时 没有 使 用 任何 命令 行 选项 ， 它 显示 的 是 从 系统 局 动 开始 的 性 能 统计 数据 的 
均值 (si 和 so) ， 以 及 其 他 统计 信息 的 瞬时 值 (swpd、free、buff 和 cache) 。 本 例 中 ， 我 们 可 以 看 到 系统 已 经 有 大 约 500MB 
的 内 存 交 换 到 了 硬盘 。 约 14MB 系 统 内 存 是 空闲 的 。 约 4MB 用 于 缓冲 区 ， 以 保存 还 未 刷新 到 硬盘 的 数据 。 约 627MB 用 于 硬盘 缓 


仔 ， 以 保存 过 去 从 硬盘 读 取 的 数据 。 
清单 3.2 


bash-2.05b$ vmstat 
Procs ----------- memory---------- --- SWap-- -----10---- --SYyStem-- ---- CpU---- 


r b swpd free buff Cache si 50 bi bo in cs US Sy id wa 


@ ©@ 5110612 14840 4412 642872 33 31 204 247 1110 1548 8 5 73 14 


在 清单 3.3 中 ， 我 们 要 求 vmstat 显 示 活 路 与 非 活跃 页 面 的 数量 信息 。 非 活跃 页 面 的 数量 表明 了 有 多 少 内 存 可 以 交换 到 硬盘 ， 
有 多 少 内 存 是 当前 可 用 的 。 本 例 中 ， 我 们 可 以 看 到 活跃 内 存 有 1310MB， 只 有 78MB 被 认为 是 不 活跃 的。 该 机 拥有 大 量 内 存 ， 且 
大 部 分 都 被 使 用 ， 处 于 活跃 状态 。 


清单 3.3 


bash-2.05b$ vmstat -a 


r b swpd free inact active Si so bi bo in cs us sy id wa 


2 1 514004 5640 79816 1341208 33 31 204 247 1111 1548 8 5 73 14 


接 下 来 ， 在 清单 3.4 中 ， 我 们 看 到 的 是 一 个 不 同 的 系统 ， 其 内 存 数据 交换 频繁 。si 列 显示 在 每 个 采样 期 间 ， 数 据 的 读 交 换 率 
分 别 为 480KB、832KB、764KB、344KB 和 512KB。so 列 显示 在 每 个 采样 期 间 ， 内 存 数据 写 交换 率 分 别 为 9KB、0KB、916KB、 
0KB、1068KB、444KB 和 792KB。 这 些 结果 可 以 说 明 该 系统 没有 足够 的 内 存 来 处 理 所 有 的 运行 进程 。 当 一 个 进程 的 内 存 被 保存 
下 来 ， 以 便 为 之 前 已 经 交换 到 硬盘 的 应 用 程序 腾 位 置 时 ， 就 会 出 现 高 频率 的 换 入 和 换 出 。 如 果 有 两 个 运行 程序 需要 的 内 存量 都 超 
过 了 系统 可 提供 的 量 ， 后 果 就 会 很 糟糕 。 比 如 ， 两 个 进程 都 在 使 用 大 量 内 存 ， 且 它们 都 试图 同时 运行 ， 而 每 个 进程 都 可 以 导致 另 
一 个 的 内 存 被 写 交 换 。 当 一 个 程序 需要 一 块 内 存 时 ， 它 就 会 把 另 一 个 程序 需要 的 一 块 内 存 踢 出 去 。 而 当 另 一 个 应 用 程序 开始 运行 
时 ， 它 又 会 把 第 一 个 程序 正在 使 用 的 一 块 内 存 中 出 去 ， 并 等 待 自己 的 内 存 块 从 交换 分 区 加 载 进来 。 这 可 能 会 导致 两 个 应 用 程序 出 
现 停顿 ， 以 等 待 它们 的 内 存 从 交换 分 区 取 回 ， 然 后 才能 继续 执行 。 只 要 一 个 程序 进步 一 点 点 ， 它 就 会 将 另 一 个 进程 使 用 的 内 存 交 
换 出 去 ， 从 而 导致 这 个 程序 慢 下 来 。 这 种 情况 被 称 为 颠 航 。 发 生 颠 艇 时 ， 系 统 会 花 大 量 的 时 间 将 内 存 读 出 或 写 入 交换 分 区 ， 系 统 
性 能 就 会 急剧 下 降 。 


具体 到 这 个 例子 ， 交 换 最 终 停止 了 ， 最 有 可 能 的 原因 是 交换 到 硬盘 的 内 存 不 是 第 一 个 进程 立即 需要 的 。 这 就 意味 着 交换 是 有 
效 的 ， 不 是 正在 使 用 的 内 存 内 容 被 写 入 到 硬盘 ， 然 后 内 存 就 会 分 配给 需要 它 的 进程 。 


清单 3.4 


[ezolt@localhost book]$ vmstat 


swpd 
131560 
1 131560 
132476 
132476 


1 133544 
1 133988 


134780 
134780 
134780 
134780 


SS SS © © 名 号 


1 100 

- -memory---------- --- swap 

free buff cache si so0 
2320 8640 53036 1 9 
2244 8640 53076 480 0 
3424 8592 53272 832 916 
2400 8600 53280 764 0 
2656 8624 53392 344 1068 
2300 8620 54288 512 444 
3148 8612 53688 0 792 
3148 8612 53688 0 0 
3148 8612 53688 0 0 
3148 8620 53680 0 0 


----- i0---- --System-- ----cpu 
bi bo in CS US Sy id wa 
107 69 1137 426 10 7 74 9 
716 0 1048 207 6 1 0 93 
1356 916 1259 692 11 4 0 85 
1040 40 1288 762 14 5 0 81 
1096 1068 1217 436 8 3 5 84 
1796 444 1090 230 5 1 2 92 
0 792 1040 166 5 192 2 
0 0 1050 158 4 195 0 
0 0 1148 451 7 291 0 
0 12 1196 477 8 2 78 12 


清单 3.5 在 前 面 的 章节 已 
以 看 到 一 些 相同 的 统计 数据 以 不 同 的 输出 模式 呈现 ， 比 如 active、 


已 经 给 出 了 ， 如 其 所 示 ，vmstat 可 以 展示 很 多 种 不 同 的 系统 统计 信息 。 现 在 当 我 们 查看 它 时 ， 我 们 可 


inactive、buffer、cache 和 used swap。 但 是 也 出 现 了 一 些 


新 的 统计 信息 ， 如 total memory， 访 数据 表示 系统 思 共 有 1516MB 内 存 ; total swap， 访 数据 表示 系统 忌 共有 2048MB 的 交换 


分 区 。 


当 试 图 确定 交换 分 区 和 当前 使 用 内 和 存 的 百分比 时 ， 了 解 系统 总 量 是 有 帮助 的 。 另 一 个 有 趣 的 统计 信息 是 pages paged 


in， 它 表示 从 硬盘 读 入 的 页 面 总 数 。 这 个 统计 信息 包括 局 动 应 用 程序 读 取 的 页 面 ， 以 及 该 应 用 程序 本 身 可 以 使 用 的 页 面 。 


清单 3.5 


bash-2.05b$ vmstat 


1552528 
1546692 
1410448 
11100 
5836 
2676 
645864 
2097096 
526280 
1570816 
20293225 
18284715 
17687435 


357314699 
67673539 


352225 
4872449 
495248623 
600129070 
19877382 
18874460 
2702803833 
3763550322 
1094067854 
20158151 


-S 

total memory 

used memory 

active memory 
inactive memory 
free memory 

buffer memory 

swap cache 

total swap 

used swap 

free swap 
non-nice USer cpu ticks 
Nice USer cpu ticks 
system cpu ticks 
idle Cpu ticks 
IOQO-wait cpu ticks 
IRQ cpu ticks 
softirg cpu ticks 
pages paged in 
pages paged out 
pages swapped in 
pages swapped out 
interrupts 

CPU context switches 
boot time 

forks 


最 后 ， 在 清单 3.6 中 ， 我 们 看 到 vmstat 可 以 提供 关于 Linux 内 核 如 何 分配 其 内 存 的 信息 。 如 前 所 述 ，Linux 内 核 有 一 系列 “分 
片 ” 来 保存 其 动态 数据 结构 。vmstat 显 示 每 一 个 分 片 (Cache) ， 展 示 使 用 了 多 少 元 素 (Num) ， 分 配 了 多 少 (Total) ， 每 个 
元 素 的 大 小 (Size) ， 整 个 分 片 使 用 了 多 少 内 他 页 (Pages) 。 这 些 信息 有 助 于 跟 路 内核 究竟 是 怎样 使 用 其 内 存 的 。 


清单 3.6 


bash-2.05b$ vmstat -m 


Cache Num Total Size Pages 
udf inode cache 0 0 416 9 
flib6_nodes 7 113 32 113 
ip6 dst cache 9 17 224 17 
ndisc cache 1 24 160 24 
raw6 Sock 0 0 672 6 
udp6_Sock 0 0 640 6 
tcp6_Sock 404 441 1120 7 
ip_fib hash 39 202 16 202 
ext3 inode cache 1714 3632 Sie 8 


vmstat 提 供 了 一 种 简便 的 方法 来 抽取 大 量 的 Linux 内 存 子 系统 的 信息 。 与 默认 输出 界面 上 的 其 他 信息 结合 起 来 ， 它 束 展 示 出 
了 一 个 关于 系统 运行 状况 和 人 资源 使 用 情况 的 图 象 。 


3.2.2 top (2.x 和 3.X) 

前 面 章 节 已 经 讨论 过 ，top 和 能 同时 给 出 系统 级 或 特定 进程 的 性 能 统计 信息 。 默 认 情 况 下 ，top 展 示 的 是 对 进程 的 CPU 消耗 量 
进行 降序 排列 的 列表 ， 但 它 也 可 以 调整 为 按 内 存 使 用 忆 量 排 序 ， 以 便 你 能 跟踪 到 哪个 进程 使 用 的 内 存 最 多 。 

3.2.2.1 内存 性 能 相关 的 选项 

top 不 用 任何 特定 命令 行 选项 来 控制 其 显示 内 存 统计 信息 。 它 的 调用 命令 行 如 下 : 


top 


不 过 ,一 旦 开始 运行 ，top 人 允许 你 选择 显示 系统 级 内 存 信息 ， 还 是 显示 按 内 存 使 用 量 排序 的 进程 。 按 内 存 消耗 量 排 序 被 证 明 
对 确定 哪个 进程 消耗 了 最 多 内 存 是 非常 有 帮助 的 。 表 3-3 襄 明了 不 同 的 与 内 仓 相关 的 切换 项 。 


表 3-3 top 运行 时 切换 项 


选 ”项 说 明 
m | ”该 项 切换 是 否 将 内 存 使 用 量 信息 显示 到 屏幕 
， 按 任务 使 用 的 内 存量 排序 。 由 于 分 配给 进程 的 内 存量 可 能 会 大 于 其 使 用 量 ， 因 此 ， 该 项 按 
驻 留 集 大 小 排序 。 驻 留 集 大 小 是 指 进程 实际 使 用 量 ， 而 不 是 简单 的 进程 请 求 量 


表 3-4 给 出 了 top 能 提供 的 整个 系统 以 及 单个 进程 的 内 存 性 能 统计 数据 。top 有 两 个 不 同 的 版 本 2.x 和 3.x， 它 们 在 输出 统计 数 
据 的 名 称 上 有 些微 差异 。 表 3-4 对 两 个 版 本 的 名 称 都 进行 了 说 了 明 。 


表 3-4 top 内存 性 能 统计 信息 


选 ”项 说 明 
%MEM 进程 使 用 内 存量 占 系 统 物 理 内 存 的 百分比 
0 进程 虚拟 内 存 使 用 总 量 。 其 中 包括 了 应 用 程序 分 配 到 但 未 使 用 的 全 部 内 存 
SWAP 进程 使 用 的 交换 区 (单位 为 KB) 总 量 
ESS 应 用 程序 实际 使 用 的 物理 内 存 总 量 
RES (Vv 3.x) 
( 续 ) 

选 ”项 说 ” 明 

TRS (v 2.x) oe . 
进程 的 可 执行 代码 使 用 的 物理 内 存 总 量 (单位 为 KB) 

CODE (v 3.x) 
PP 专门 分 配给 进程 数据 和 堆栈 的 内 存 总 量 (单位 为 KB) 
DATA (v 3.x) 


SHARE (v 2.x) 


可 与 其 他 进程 共有 至 的 内 存 总 量 (单位 为 KB) 


SHR (v 3.x) 
D (v 2.x) 需要 刷新 到 硬盘 的 脏 页 面 的 数量 
nDRT (v 3.x) 类 | 


Mem: total, used, free 


swap: total, used, free 


active (v 2.x) 


inactive (v 2.x) 


buffers 


对 物理 内 存 来 说 ， 该 项 表示 的 是 其 总 量 、 使 用 量 和 空闲 量 
对 交换 分 区 来 说 ， 该 项 表示 的 是 其 总 量 、 使 用 量 和 空闲 量 
当前 活跃 的 物理 内 存 总 量 

韭 活 跃 且 一 段 时 间 内 未 被 使 用 的 物理 内 存 总 量 

用 于 缓冲 区 写 入 便 盘 的 数值 的 物理 内 存 总 量 (单位 为 KB) 


top 提 供 了 不 同 运行 进程 的 大 量 的 内 存 信 息 。 如 同 后 续 章 节 将 会 讨论 的 ， 你 可 以 使 用 这 些 信息 来 确定 应 用 程序 究竟 是 如 何 分 
配 和 使 用 内 存 的 。 


3.2.2.2 ”用 法 示例 


清单 3.7 与 前 面 章 节 给 出 的 top 运 行 示 例 相似 。 不 过 这 个 例子 中 ， 请 注意 在 绥 ; 站 区 中 有 大 约 84MB 是 空 闪 的 ， 而 忌 的 物理 内 存 
容量 为 1024MB。 


清单 3.7 


[ezolt@wintermute doc]$ top 

top - 15:47:03 up 24 days, 4:32, 15 users, load average: 1.17, 1.19, 1.17 
Tasks: 151 total, 1 running, 138 sleeping, 11 stopped, 1 zombie 

Cpu(s): 1.2% US, 0.7% Sy, 0.0% ni, 93.0% id, 4.9% wa, 0.0% hi, 0.1% si 
Mem: 1034320k total， 948336k UsSed ， 85984k free, 32840k buffers 
Swap: 2040244k total, 276796k used, 1763448Kk free, 460864k cached 


PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 
26364 root 16 @ 405m 7im 32im S 4.0 7.1 462:25.50 X 
17345 ezolt 16 0 176m 73m 98m S 2.6 7.3 1:17.48 soffice.bin 
18316 ezolt 16 0 2756 1096 1784 R 0.7 0.1 0:05.54 top 
26429 ezolt 16 0 65588 S52m 12mS 0.3 5.2 16:16.77 metacity 
26510 ezolt 16 0 19728 5660 16m S 0.3 0.5 27:57.87 clock-applet 
26737 ez0olt 16 0 70224 35m 20mS 0.3 3.5 8:32.28 gnome-terminal 
1 root 16 0 2396 448 1316 S 0.0 0.0 0:01.72 init 
2 root RT 0 0 0 0S 0.0 0.0 0:00.88 migration/0 
3 root 34 19 0 0 0S 0.0 0.0 0:00.01 ksoftirqd/0 
4 root RT 0 0 0 OS 0.0 0.0 0:00.35 migrationy1 
5 root 34 19 | 0 0S 00 00 0:00.01 ksoftirqd/i1 
6 root RT ®@ 0 0 0S 00 0.0 0:34.20 migration/2 
7 root 34 19 0 @ @8 0.0 0.0 0:00.01 ksoftirqd/2 


和 前 面 一 样 ，top 可 以 被 定制 为 只 显示 观察 过 程 中 你 感 兴趣 的 内 容 。 清 单 3.8 给 出 的 高 度 配 置 界面 只 显示 了 内 存 性 能 统计 信 


‘Do 


清单 3.8 


Mem: 1034320k total, 948336k USed ， 85984Kk free， 33024k buffers 
Swap: 2040244k total, 276796Kk used, 1763448k free， 460680k cached 


VIRT RES SHR %MEM SWAP CODE DATA nFLT nDRT COMMAND 


405m 71im 321m 7.1 333m 1696 403m 4328 O@O X 

70224 35m 20m 3.5 33m 280 68m 3898 0 gnome -terminal 

2756 1104 1784 0.1 1652 52 2704 0 0 top 

19728 5660 16m 0.5 13m 44 19m 17 0 clock-applet 

2396 448 1316 0.0 1948 36 2360 16 0 1init 
0 0 0 0.0 0 0 0 0 0 migration/0 
0 0 0 0.0 0 0 0 0 0 ksoftirqd/0 
0 0 0 0.0 0 0 0 0 0 migration/1 
0 0 0 0.0 0 0 0 0 0 ksoftirqd/1 
0 0 0 0.0 0 0 0 0 0 migration/2 
0 0 0 0.0 0 0 0 0 0 ksoftirqd/2 
0 0 0 0.0 0 0 0 0 0 migration/3 


top 提 供 了 对 内 存 统 计数 据 的 实时 更 新 ， 并 显示 了 哪个 进程 正在 使 用 哪 种 类 型 的 内 存 。 当 我 们 调查 应 用 程序 内 存 使 用 情 ; 


时 ， 这 些 信息 束 变 得 有 用 了 。 


3.2.3 procinfo (ll) 
正如 我 们 在 前 面 看 到 的 ，procinfo 提 供 的 是 系统 级 性 能 特性 的 概 此。 除了 前 面 章节 摘 述 过 的 统计 数据 外 ，procinfo 还 提供 了 
一 些 内 存 统计 数据 ， 与 vmstat 和 top 类 似 ， 这 些 数据 表明 了 当前 内 和 存 是 如 何 被 使 用 的 。 
3.2.3.1 内存 性 能 相关 的 选项 
procinfo 没 有 任何 选项 来 修改 其 内 存 统计 信息 的 显示 输出 ， 因 此 其 调用 命令 如 下 : 
procinfo 
procinfo 显 示 的 是 基本 内 存 系 统 的 内 存 统 计 信 息 ， 与 top 和 vmstat 类 似 ， 如 表 3-5 所 示 。 


表 3-5 ”ptocinfo 内 存 统计 信息 


选 项 说 明 
Total 物理 内 存 总 量 
Used 使 用 的 物理 内 存 总 量 
Free 未 使 用 的 物理 内 存 总 量 
Shared 该 项 已 过 时 ， 应 忽略 
Buffers 用 于 人 硬盘 写 绥 冲 区 的 物理 内 存 总 量 
Page in 从 便 盘 恋人 入 的 块 数 (通常 大 小 为 1IKB )( 该 项 在 2.6.x 版 内 核 中 有 问题 ) 
Page out 写 人 硬 和 梧 的 块 数 (通常 大 小 为 1KB)( 该 项 在 2.6.x 版 内 核 中 有 问题 ) 
Swap in 从 交换 分 区 读 入 的 内 存 页 数 (该 项 统计 数据 在 2.6.x 版 内 核 中 有 问题 ) | 
Swap out 写 到 交换 分 区 的 内 存 页 数 ( 该 项 统计 数据 在 2.6.x 版 内 核 中 有 问题 ) 
与 vmstat 各 top 非常 相似 ，procinfo 是 一 种 低 开销 的 命令 ， 它 适 于 长 时 间 在 控制 台 或 屏幕 窗口 中 运行 。 它 为 系统 运行 状况 和 


性 能 提供 了 展 好 的 指示 。 
3.2.3.2 ”用 法 示例 


清单 3.9 是 procinfo 的 典型 输出 。 如 同 你 所 看 到 的 ， 它 报告 了 系统 使 用 虚拟 内 存 的 已 体 信 息 。 在 这 个 例子 中 ， 系 统 总 共有 
312MB 内 存 ， 其 中 有 301MB 被 内 核 和 应 用 程序 使 用 ，11MB 为 系统 缓冲 区 ， 还 有 11MB 完 全 没有 被 使 用 。 


清单 3.9 


[ezolt@localhost procinfo-18]$ ./procinfo 


Linux 2.6.6-1.435.2.3smp (bhcompile@tweety.build,.redhat.com) (gcc 3.3.3 20040412 ) 
#1 
1CPU [localhost] 


Memory: Total Used Free Shared Buffers 
Mem: 320468 308776 11692 名 11604 
Swap: 655192 220696 434496 


Bootup: Sun Oct 24 10:;03:43 2004 Load average: 0.44 0.53 0.51 31110 32243 


USer : 0:57:58.92 9.0% page in : 0 

Nice : 0:02:51.09 0.4% page out: 0 

System: 0:20:18.43 3.2% swap in : @ 

idle : 8:47:31.54 81.9% swap out: 0 

uptime: 10:44:01.94 context : 13368094 

irgq 0: 38645994 timer LPO. 2 
和 90516 18042 irgq 8: 1 rte 
Ir .这 0 cascade [4] irq 9: 2 

irq 3: 742857 prism2 cs irq 10: 2 

irgq 4: 6 rg T1142 562551 uhci hcd, yenta, yen 
.ng Bs 2 irg 12: 1000803 18042 
.ra 8: 8 irg 14: 207681 ide0 


procinfo 在 单一 信息 屏 中 提供 系统 性 能 信息 。 虽 然 它 给 出 了 一 些 重要 的 内 存 统计 数据 ， 但 vmstat 或 top 更 适合 于 调查 系统 级 
的 内 存 使 用 情 ) 


3.2.4 gnome-system-monitor (Il) 

gnome-system-monitor 在 许多 方面 就 是 top 的 图 形 表 示 。 它 使 你 能 监控 单个 进程 ， 并 从 它 显 示 的 图 形 上 来 观察 系统 负载 。 
同时 ， 它 还 提供 了 CPU 和 内 存 使 用 情况 的 基本 图 形 。 

3.2.4.1 内 存 性 能 相关 的 选项 


gnome-system-monitor 可 以 从 Gnome 荣 单调 用 。 (Red Hat 9 及 更 高 版 本 中 ， 在 System Tools 一 System Monitor 选 项 
下 。) 不 过 ， 它 也 可 以 用 下 面 的 命令 行 来 调用 : 
gnome -System-monitor 


gnome-system-monitor 没 有 相关 的 命令 行 选项 能 影响 内 存 性 能 测量 。 


3.2.4.2 ”用 法 示例 


当 你 局 动 gnome-system-monitor， 并 选择 System Monitor 标 签 后 ， 你 可 以 看 到 如 图 3-1 所 示 的 窗口 。 这 个 窗口 使 你 能 浏 


网 图 形 ， 看 看 当前 已 经 使 用 了 多 少 物理 内 存 和 交换 分 区 ， 以 及 使 用 情况 随时 间 友 生 的 变化 。 在 这 个 例子 中 ， 我们 看 到 1007MB 的 
忌 量 中 已 经 使 用 了 969MB， 且 内 存 使 用 量 在 一 段 时 间 内 是 比较 平稳 的 。 
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图 3-1 


gnome-system-monitor 提 供 的 数据 图 形 视 图 使 得 对 系统 的 观察 更 容易 也 更 迅速 ， 但 是 ， 却 缺少 了 大 部 分 的 细节 ， 比 如 内 
存 是 如 何 使 用 的 。 


3.2.5 free 


free 提 供 的 是 系统 使 用 内 存 的 总 体 情况 ， 包 括 空 闲 内 人 存量。 虽然 free 命 令 可 能 会 显示 一 个 特定 系统 没有 多 少 空 采 内 人 存 ， 但 这 
不 一 定 是 坏事 。Linux 内 核 不 会 让 空 内 内 存 一 直 闪 着 ， 而 是 会 将 它 作 为 高 速 缓存 用 于 硬盘 读 ， 或 是 作为 组 站 区 用 于 硬盘 写 。 这 可 
以 显著 提升 系统 性 能 。 由 于 这 些 高 速 缓存 和 绥 中 区 总 是 可 以 被 去 弃 的 ， 所 以 ， 当 应 用 程序 需要 时 这 些 内 存 还 是 可 以 使 用 的 ,free 


显示 的 是 空 内 内 存 容量 加 上 或 减 去 这 些 绥 冲 区 的 容量 。 
3.2.5.1 ”内 存 性 能 相关 的 选项 
用 下 面 的 命令 行 可 以 调用 free: 
free [-1] [-t] [:s$ delay ] [-c count ] 
表 3-6 襄 明 的 参数 可 以 修改 free 显 示 的 统计 信息 类 型 。 与 vmstat 非 常 相似 ，free 可 以 周期 性 地 显示 更 新 内 存 统计 数据 。 


表 3-6 ”free 命 令 行 选 项 


选 项 说 明 
-s delay 使 free 按 每 delay 秒 的 间 隐 输出 新 的 内 存 统计 数据 
-Cc count 使 free 输出 count 次 新 的 统计 数据 

一 1 问 你 展示 使 用 了 多 少 高 端 内 存 和 多 少 低 端 内 存 


free 实 际 上 显示 了 一 些 所 有 内 存 统 计 工 具 的 最 完整 的 内 存 统计 信息 。 这 些 统计 信息 如 表 3-7 所 示 。 


表 3-7 ftee 内 存 统 计 信 息 


统计 信息 说 明 

Total 物理 内 存 与 交换 空间 的 总 量 

Used 使 用 的 物理 内 存 和 交换 分 区 的 容量 

Free 未 使 用 的 物理 内 存 和 区 换 分 区 的 容量 

Shared 该 项 已 过 时 ， 应 忽略 

Buffers 用 作 硬 盘 写 缓冲 区 的 物理 内 存 的 容量 

Cached 用 作 硬 盘 读 缓存 的 物理 内 存 的 容量 

-V+ buffers/| 对 Used 列 来 说 ， 契 缓冲 区 / 绥 人 未 锌 计 为 已 使 用 的 内 存 ， 则 该 项 显示 的 是 将 使 用 的 
cache 内 存 容 量 。 在 Free 列 中 给 出 的 是 如 果 把 缓冲 区 /缓存 计 为 空闲 内 存 时 的 空闲 内 存 容 量 

Low | 低 端 内 存 或 能 被 内 核 直 接 访问 的 内 存 总 量 

Hignh 局 疾 内 存 或 不 能 被 内 核 直 接 访 问 的 内 存 总 量 

Tota1s 对 Total、Used 和 Free 列 ， 该 项 显示 的 是 该 列 中 物理 内 人 存 和 区 换 分 区 的 总 和 


free 提 供 的 是 Linux 中 系统 级 内 存 使 用 情况 信息 。 它 给 出 了 相当 完整 的 内 存 统计 数据 。 
3.2.5.2 ”用 法 示例 
不 使 用 任何 命令 选项 来 调用 free， 能 让 你 获得 内 存 子 系统 的 整体 信息 。 


如 前 所 述 ， 如 果 可 能 的 话 ，Linux 会 使 用 所 有 可 用 的 内 存 来 缓存 数据 和 应 用 程序 。 在 清音 3.10 中 ，free 告 诉 我 们 现在 已 经 使 
用 了 234720 字 市 的 内 存 ， 但 是 ， 如 果 忽 略 组 ;中 区 和 缓存 ， 那 么 整 只 使 用 了 122772 字 忆 的 内 存 。 与 之 相反 的 是 free 刘 ， 当 前 我 们 
有 150428 字 证 内 存 是 空 闪 的 ， 同 样 的 ， 如 果 已 经 将 缓冲 区 和 缓存 计算 在 内 (这 是 可 以 的 ， 因 为 在 Linux 需 要 使 用 这 部 分 内 存 时 ， 
尼 会 丢弃 这 些 缓冲 区 ) ， 那 么 ,我 们 有 262376 字 节 的 空 内 内 存 。 


清单 3.10 


[ezolt@wintermute procps-3.2.0]$ free 


total used free shared buffers cached 
Mem: 385148 234720 150428 0 8016 103932 
-/+ buffers/cache: 2772 262376 
Swap : 394080 81756 312324 


尽管 你 可 以 自己 合计 这 些 列 ， 但 是 清单 3.11 所 示 的 -t 标 志 可 以 告诉 你 加 上 交换 分 区 和 实际 内 存 的 总 数 。 在 这 个 例子 中 ， 系 统 
有 376MB 的 物理 内 存 和 384MB 的 交换 分 区 。 系 统 可 获得 的 内 存 总 量 为 376MB 加 上 384MB， 即 大 约 760MB。 总 的 空闲 内 存 计 算 
方法 为 134MB 的 物理 内 存 加 上 259MB 的 交换 分 区 ， 产 生 忆 共 393MB 的 空 有 内存。 


清单 3.11 


[ezolt@wintermute procps-3.2.0]$ free -+t 


total USed free shared buffers cached 
Mem: 385148 247088 138060 0 9052 115024 
-/+ buffers/cache: 123012 262136 
Swap: 394080 81756 312324 


Total : 779228 328844 450384 


最 后 ，free 还 能 告诉 你 系统 使 用 的 高 端 和 低 端 内 仔 量 。 这 主要 用 于 具有 1GB 或 更 多 物理 内 仓 的 32 位 机 器 (如 IA32) 。 (32 
位 机 器 是 唯一 有 高 端 内 存 的 机 器 。) 清单 3.12 展 示 了 一 个 系统 ， 访 系统 的 空 亲 内 和 存 非 单 小 ， 总 共 只 有 6MB。 它 显示 出 系统 有 
876MB 的 低 喘 内 存 和 640MB 的 高 端 内 存 。 同 时 ， 这 个 系统 的 缓存 内 存 容量 比 缓冲 内 存 容量 大 很 多 ， 这 表明 它 可 能 更 加 积极 地 将 
数据 写 入 硬盘 ， 而 不 是 长 时 间 将 其 留 在 缓冲 区 里 。 


清单 3.12 


fas%s free -1 


z total used free shared buffers cached 
Mem: 1552528 1546472 6056 0 7544 701408 
Low: 897192 892800 4392 
High : 655336 653672 1664 
-/+ buffers/cache: 837520 715008 
Swap : 2097096 566316 1530780 


free 很 好 地 体现 了 系统 内 存 是 如 何 被 使 用 的 。 虽 然 可 能 需要 点 时 间 来 适应 其 输出 格式 ， 但 是 它 包 售 了 所 有 重要 的 内 存 统计 信 


3.2.6 slabtop 


slabtop 与 top 相 似 ， 但 是 它 并 不 显示 系统 中 进程 的 CPU 和 内 存 使 用 情况 的 信息 ，slabtop 实 时 显示 内 核 是 如 何 分 配 其 各 种 组 
存 的 ， 以 及 这 些 缓存 的 被 占用 情况 。 在 内 部 ， 内 核 有 一 系列 的 缓存 ， 它 们 由 一 个 或 多 个 分 片 (slab) 构成 。 每 个 分 片 包括 一 组 对 


和 象 ， 对 象 个 数 为 一 个 或 多 个 。 这 些 对 象 可 以 是 活跃 的 (使 用 的 ) 或 非 活跃 的 (未 使 用 的 ) 。slabtop 回 你 展示 的 是 不 同 分 片 的 状 
况 。 它 显示 了 这 些 分 片 的 被 占用 情况 ， 以 及 它们 使 用 了 多 少 内 存 。 


3.2.6.1 内存 性 能 相关 的 选项 
slabtop 用 如 下 命令 行 调用 : 

slabtop [--delay n -sort={a lbjclllvlnlolpls1lu 
表 3-8 对 slabtop 的 命令 行 选项 进行 了 襄 明 。 


表 3-8 slabtop 命 令 行 选项 


选 项 说 明 
- -delay | 指定 s1abtop 在 更 新 间隔 期 间 应 等 等 多 长 时 间 
| “指定 输出 顺序 。order 从 下 列 各 项 中 选择 
a 按 每 个 分 片 所 包含 的 活跃 对 象 数 排序 
b 按照 特定 缓存 中 的 每 个 分 片 所 包含 的 全 部 对 象 〈 活 跃 的 和 非 活 跃 的 ) 数量 排序 
6 按 每 个 缓存 所 用 内 存 总 量 排 友 
] 按 每 个 缓存 使 用 的 分 片 数 排序 
一 一 Sort {order} 
Vv 按 每 个 缓存 使 用 的 活跃 分 片 数 排序 
n 按 缓存 名 称 排 厅 
0 按 特 定 缓 存 中 的 对 象 数量 排 友 
p 按 每 个 分 片 使 用 的 页 数 排序 
s 按 缓存 中 对 象 的 大 小 排序 


slabtop 可 以 一 需 Linux 内 核 的 数据 结构 。 每 一 种 分 片 类 型 都 与 Linux 内 核 紧 密 相 关 ， 不 过 ， 对 这 些 分 片 的 描述 已 经 超出 了 本 
书 的 范围 。 如 果 某 个 特定 分 片 使 用 了 大 量 的 内 核 内 存 ， 那 么 阅读 Linux 内 核 源 代码 和 搜索 互联 网 是 找 出 这 些 分 片 用 在 哪里 的 最 好 
的 两 种 方法 。 


3.2.6.2 ”用 法 示例 


如 清单 3.13 所 示 ， 黑 认 情 况 下 ，slabtop 会 填 满 整个 控制 侣 ， 且 每 3 秒 瓯 更 新 一 次 统计 数据 。 在 这 个 例子 中 ， 你 可 以 看 见 
size-64 分 睛 的 对 象 数 最 多 ， 但 其 中 只 有 一 半 是 活跃 的 。 


清单 3.13 


[ezolt@wintermute proc]$ slabtop 


Active / Total 0bjects (% USed ) : 185642 / 242415 (76.6%) 
Active / Total Slabs (s% used) : 12586 / 12597 (99.9%) 

Active / Total Caches (% Used) : 88 / 134 (65.7%) 

Active / Total Size (% USed) : 42826.23K / 50334.67K (85. 1%) 


Minimum / Average / Maximum Object : O01K / 0.21K / 128.00K 


OBJS ACTIVE USE OBJ SIZE SLABS OBJ/SLAB CACHE SIZE NAME 


66124 34395 52% @ .06K 1@84 61 4336K Size-64 
38700 35699 92% @.05K 516 7 5 2064K buffer head 
30992 30046 96% @ .15K 1192 26 4768K dentry cache 
21910 21867 99% @.27K 1565 14 6260K radix tree node 
20648 20626 99% @.50K 2581 8 10324K ext3 inode cache 
11781 7438@ 63% @ .03K 99 119 396K size-32 

9675 8356 865 0 .09K 215 45 860K vm area struct 
6024 2064 34s% 0.62K 1804 6 4016K ntfs big inode cache 
4520 3633 805 0 .02K 20 226 80K anon vma 

4515 3891 86% @ .25K 381 15 1204K filp 

4464 1648 36s @ .12K 144 31 576K Size-128 

3010 30108 108% @ .38K 301 1@ 1204K proc inode cache 
2344 587 25% @ .50K 293 8 1172K size-5i2 

2250 2204 97% @ .38K 225 10 900K inode cache 

2100 699 33% @ .25K 140@ 15 S60K size-256 

1692 1687 99% @ .62K 282 6 1128K nfs inode cache 
1141 1141 1@0% 4 .00K 1141 1 4564K size -4096 


由 于 slabtop 提 供 的 信息 是 周期 性 更 新 的 ， 因 此 它 是 观察 Linux 内 核 的 内 存 使 用 情况 随 工作 负载 变化 而 变化 的 极 好 的 方法 。 


3.2.7 sar (|) 


在 对 内 存 统计 信息 进行 监控 时 ，sar 作 为 CPU 性 能 工具 的 所 有 优势 仍然 存 企 ， 比 如 简单 记录 样本 、 提 取 多 种 输出 格式 、 对 样 
本 加 时 间 稚 等 。sar 提 供 的 信息 与 其 他 内 存 统计 工具 类 似 ， 比 如 空 闪 内 存 、 缓 冲 区 、 高 速 缓存 和 交换 分 区 总 量 的 当前 值 。 但 是 ， 
它 还 会 提供 这 些 数 值 的 变化 率 ， 以 及 当前 消耗 的 物理 内 人 存 和 交换 分 区 的 百分比 信息 。 


3.2.7.1 内 存 性 能 相关 的 选项 
sar 使 用 如 下 命令 行进 行 调用 : 


sar [-B] [-r] [-R] 


默认 情况 下 ，sar 只 显示 CPU 性 能 统计 数据 ， 因 此 ， 如 果 想 要 检索 任何 内 存 子 系统 的 统计 信息 ， 你 丈 需 要 使 用 表 3-9 给 出 的 选 


选项 说 明 
报告 的 信息 为 内 核 与 磁盘 之 间 交 换 的 块 数 。 此 外 ， 对 v2.5 之 后 的 内 核 版 本 ， 该 项 报告 的 信息 为 缺 
局 报告 的 是 系统 交换 的 页 数 
-r 报告 系统 使 用 的 内 存 信息 。 它 包括 总 的 空闲 内 存 、 正 在 使 用 的 交换 分 区 、 缓 存 和 缓冲 区 的 信息 
sar 给 出 的 Linux 内 存 子 系统 的 信息 相当 完整 。 sar 强 过 其 他 工具 的 一 点 就 是 ， 除 了 绝对 值 之 外 ， 它 还 提供 一 些 重要 数值 的 变 


化 率 。 你 可 以 通过 这 些 数值 查看 内 存 使 用 情况 究竟 是 如 何 随时 | 间 变 化 的 ， 而 不 用 去 找 出 这 些 值 在 样本 之 间 的 差异 。 表 3-10 给 出 
了 sar 提 供 的 内 存 统计 信息 。 


表 3-10 sat 内 存 统计 信息 


选 项 说 明 

pgpgin/s 内 核 以 分 页 形式 每 秒 从 磁盘 换 入 的 内 存 容量 (以 KB 为 单位 ) 

pgpgout/s 内 核 以 分 页 形式 每 秒 换 出 到 磁盘 的 内 存 容量 (以 KB 为 单位 ) 

fault/s 每 秒 内 存 子 系统 需 满足 的 缺 页 总 数 。 这 些 缺 页 不 一 定 需要 访问 磁盘 

majflt/s 每 秒 内 存 子 系统 需 满足 的 缺 页 总 数 ， 这 些 缺 页 需要 访问 磁盘 

pswpin/s 每 秒 系统 襟 入 内 和 存 的 交换 分 区 总 量 ( 按 页 计 ) 

pswpout/s 每 秒 系统 写 入 到 交换 分 区 的 内 存 总 量 ( 按 页 计 ) 

kbmemfree 当前 空闲 或 未 被 使 用 的 物理 内 存 总 量 (以 KB 为 单位 ) 

kbmemused 当前 被 使 用 的 物理 内 存 总 量 (以 KB 为 单位 ) 

%memused 被 使 用 的 物理 内 存 总 量 了 所 占 的 百分比 

kbbuffers 用 作 磁 盘 写 缓冲 区 的 物理 内 存 总 量 

kbcached 用 作 磁 盘 读 缓存 的 物理 内 存 总 量 

kbswpfree 当前 空闲 的 交换 分 区 容量 (以 KB 为 单位 ) 

kbswpused 当前 被 使 用 的 交换 分 区 容量 (以 KB 为 单位 ) 

%swpused 被 使 用 的 交换 分 区 百分比 

人 该 项 内 仔 包 择 了 交换 到 入 盘 的 和 已 存在 于 内 存 中 的 。 如 果 需 要 内 存 ， 它 可 以 立即 被 重用 ， 
因为 数据 已 经 存在 于 交换 区 域 了 

frmpg/s 系统 释放 内 存 页 面 的 速率 。 若 数值 为 负 ， 则 表示 系统 正在 分 配 它们 

6 系统 将 新 内 存 页 面 用 作 绥 冲 的 速率 。 知 数值 为 负 ， 则 表示 绥 冲 数量 正在 减少 ， 系 统 对 它们 
的 使 用 量 也 在 减少 


尽管 sar 没 有 高 端 和 低 端 内 存 统计 数据 ， 但 是 它 几 乎 提供 了 其 他 所 有 的 内 存 统计 信息 。 事 实 上 ，sar 还 能 记录 网 络 CPU 和 磁盘 


|/O 的 统计 数据 ， 这 使 得 它 非 党 强大 。 


3.2.7.2 ”用 法 示例 


清单 3.14 展 示 了 sar 提 供 的 天 于 当前 内 存 子 系统 状态 的 信息 。 从 这 些 结果 我 们 可 以 看 到 系统 使 用 的 内 存量 占 整个 内 存 容量 的 


比例 变化 范围 为 98.87% 到 99.25%。 在 观察 期 间 ， 空 用 内 存量 从 11MB 下 降 到 7MB。 被 使 用 的 交换 分 区 百分比 徘徊 在 11% 左 右 。 
系统 的 数据 缓存 容量 约 为 266MB， 且 大 约 有 12MB 的 缓冲 可 以 写 到 磁盘 。 


清单 3.14 


[ezolt@scrffy manuscript]$ Sar -r 1 5 


Linux 2.6.8-1.521smp (scrffy) 


1012512004 


09:45:30 AM kbmemfree kbmemused %memused kbbuffers 
09:45:31 AM 11732 1022588 98 .87 12636 
09:45:32 AM 10068 1024252 99 .03 12660 
09:45:33 AM 5348 1028972 99 .48 12748 
09:45:35 AM 4932 1029388 99 .52 12732 
09:45:36 AM 6968 1027352 99 .33 12724 
Average: 7810 1026510 99.25 12700 


272284 
273300 
275292 
273748 
271876 


273300 


1816140 
1816140 
1816140@ 
1816140 
1815560 
1816024 


224104 
224104 
224104 
224104 
224684 
224220 


10. 


10 
10 
10 
11 


10. 


98 


‘98 
.98 
.98 
.01 


99 


kbcached kbswpfree kbswpused %swpused kbswpcad 


66080 
66080 
66080 
66080 
66660 
66196 


清单 3.15 显 示 在 第 一 个 样本 期 间 ， 系 统 使 用 空 内 内 存 的 速率 约 为 每 秒 82 个 页 面 。 然 后 系统 释放 了 约 16 个 页 面 ， 接 着 又 使 用 


桂 


村 


了 大 约 20 个 页 面 。 观 察 期 间 只 有 一 次 缓冲 页 面 数 是 增加 的 ， 速 率 为 每 秒 2.02 个 页 面 。 最 后 ， 缓 存 页 面 数 减少 了 2.02， 不 过 最 终 ， 
它们 增加 的 速率 为 每 秒 64.36 个 页 面 。 


清单 3.15 


[ezolt@scrffy manuscript]$ sar -R 1 5 


Linux 2.6.8-1.521smp (scrffy) 10/25/2004 
09:57:22 AM frmpg/s bufpg/s campg/s 
09:57:23 AM -81.19 0.00 0.00 
09:57:24 AM 8.00 0.00 0.00 
09:57:25 AM 0.00 2.02 -2.02 
09:57:26 AM 15 .84 0.00 0.00 
09:57:27 AM -19 .80 0.00 64 .36 
Average: -15.54 0.40 12.55 


清单 3.16 显 示 ， 人 在 第 三 个 样本 期 间 ， 系 统 从 内 存 写 了 大 约 53 个 页 面 到 磁盘 。 该 系统 的 缺 页 数 相对 较 遍 ， 
面 在 被 分 配 和 使 用 。 季 运 的 是 ， 这 些 都 不 是 主 缺 页 ， 系 统 不 必 为 了 解决 它们 而 去 访问 磁盘 。 


清单 3.16 


Ni 


] 必 兄 


意味 看 内 体 页 


[ezolt@scrffy dvil]$ sar -B 1 5 


Linux 2.6.8-1.521smp (scrffy) 10/25/2004 

09:58:34 AM pgpgin/s pgpgout/s fault/s majflt/s 
09:58:35 AM 0.00 0.00 1328 .28 0.00 
09:58:36 AM 0.00 0.00 782.18 0.00 
09:58:37 AM 0.00 53 .06 678 .57 0.00 
09:58:38 AM 0.00 0.00 709 .80 0.00 
09:58:39 AM 0.00 0.00 Fi 0.00 
Average: 0.00 10 .42 842.48 0.00 


如 你 所 见 ，sar 是 一 个 强大 的 工具 ， 通 过 增加 存档 、 时 间 蕉 和 同步 收集 多 种 不 同类 型 统计 信息 的 能 力 ， 它 增强 了 其 他 系统 内 
仓 性 能 工具 的 功能 。 


3.2.8 /procmeminfo 


Linux 内 核 提供 用 户 可 读 文本 文件 /proc/meminfo 来 显示 当前 系统 范围 内 的 内 存 性 能 统计 信息 ， 它 提供 了 系统 范围 内 内 存 统 
计数 据 的 超 集 ， 包 括 了 vmstat、top、free 和 procinfo 的 信息 ， 但 是 使 用 起 来 有 一 定 的 难度 。 如 果 你 想 定 期 更 新 ， 就 需要 自己 写 
一 个 脚本 或 一 些 代 码 来 实现 这 个 功能 。 如 果 你 想 保 和 存 内 存 性 能 信息 或 是 将 其 与 CPU 统计 信息 相 协 调 ， 融 必须 创建 一 个 新 的 工具 
或 是 写 一 个 脚本 。 尽 管 如 此 ，/proc/meminfo 提 供 的 却 是 最 完整 的 系统 内 存 使 用 情况 的 信息 。 


3.2.8.1 内 存 性 能 相关 的 选项 

/proc/meminfo 中 的 信息 可 以 用 如 下 命令 行 来 检索 : 
cat /proc/meminfo 

这 个 命令 显示 的 统计 信息 如 表 3-11 所 示 。 


表 3-11 /proc/meminfo 内 存 统 计 信 息 ( 均 以 KB 为 单位 ) 


选 项 说 明 
MemTotal 系统 物理 内 存 总 量 
MemFree 空闲 物理 内 存 总 量 
Buffers 二 待 中 的 磁盘 写 操作 的 内 存 容 量 
Cached 用 于 绥 存 磁盘 读 操 作 的 内 存 容量 
SwapCached 在 交换 分 区 和 物理 内 存 中 都 存在 的 内 存 容量 
Active 系统 中 当前 处 于 活跃 状态 的 内 存 容量 
Inactive 当前 处 于 非 活跃 状态 且 可 用 于 交换 的 内 存 容量 


HighTotal 高 端 内 存 容量 (以 KB 为 单位 ) 


选 项 说 明 
HighFree 空 闪 的 高 端 内 存 容量 (以 KB 为 单位 ) 
LowTotal 低 端 内 存 容量 (以 KB 为 单位 ) 
LowFree 空闲 的 低 端 内 存 容 量 (以 KB 为 单位 ) 
SwapTotal 交换 内 存 容量 (以 KB 为 单位 ) 
SwapFf ree 空闲 的 交换 内 存 容量 (以 KB 为 单位 ) 
Dirty 等 待 写 人 磁盘 的 内 存 
Writeback 当前 被 写 入 磁盘 的 内 存 
Mapped 用 mmap 映射 到 一 个 进程 虚拟 地 址 空间 的 内 存 总 量 
Slab 内 核 分 片 内 存 的 总 量 (以 KB 为 单位 ) 
Committed_AS 所 需 内 存 容量 ,在 当前 的 工作 负载 下 ， 这 个 容量 几乎 是 不 会 耗 尽 的 。 通 常情 况 下 ， 内 核 


会 分 配 更 多 的 内 存 ， 预 期 应 用 程序 会 超 分 配 。 如 果 所 有 的 应 用 程序 都 使 用 自己 被 分 配 的 内 
存 ， 那 么 人 内 存 容量 


PageTables 为 内 核 页 表 保 留 的 内 存 容量 
VmallocTotall vmalloc 可 用 的 内 核 内 存 容 量 
VmallocUsed vmal1loc 已 使 用 的 内 核 内 存 容量 
VmallocChunk vmal1loc 可 用 内 存 中 最 大 的 连续 块 
HugePages_Total 所 有 HugePage 的 总 的 大 小 


HugePages_Free 裤 和 HugePage 的 总 量 


/proc/meminfo 提 供 了 大 量 的 天 于 Linux 内 存 子 系统 当前 状态 的 信息 。 
3.2.8.2 ”用 法 示例 


清单 3.17 是 一 个 输出 /proc/meminfo 的 例子 。 它 给 出 的 一 些 内 存 统计 信息 与 我 们 在 其 他 工具 中 看 到 的 信息 是 相同 的 。 但 是 
有 些 统计 数据 则 给 出 了 新 的 信息 。 首 先 ，Dirty 项 显示 系统 当前 有 24KB 的 数据 等 待 写 入 磁盘 。 其 次 ，Committed_As 项 显示 我 们 
不 需要 更 多 一 点 的 内 存 (需要 的 量 为 1068MB， 而 总 量 为 1024MB) ， 以 避免 出 现 可 能 的 内 存 耗 尽 的 情 ; 


清单 3.17 


[ezolt@scrffy /tmp]$ cat /proc/meminfo 


MemTotal: 1034320 kB 
MemF ree: 10788 kB 
Buffers: 29692 kB 
Cached: 359496 KkB 
SwapCached: 113912 kB 
Active: 704928 kB 
Inactive: 222764 kB 
HighTotal: 0 kB 
HighFree: 0 kB 


LowTotal: 1034320 kB 


LowFree: 10788 kB 


SwapTotal: 2040244 KB 
SWapFree: 1756832 KB 
Dirty: 24 kB 
Writeback : 0 kB 
Mapped : 604248 kB 
Slab: 51352 kB 
Committed AS: 1093856 kB 
PageTables: 9560 kB 
vmallocTotal: 3088376 kB 
vmallocUsed: 26600 kB 
vmallocChunk: 3058872 kB 
HugePages Total: @ 

HugePages Free: @ 

Hugepagesize: 2048 kB 


/proc/meminfo 收 集 的 系统 级 Linux 内 存 统计 信息 是 最 完整 的 。 由 于 可 以 把 它 当 作 是 一 个 文本 文件 ， 因 此 ， 任 何 自 定义 的 脚 
本 或 程序 都 可 以 很 容易 地 提取 这 些 统计 数据 。 


3.3” ”本章 小 结 


本 章 重 后 关 注 了 系统 级 内 存 性 能 衡量 指标 。 这 些 指标 主要 展示 的 是 操作 系统 是 如 何 使 用 内 存 而 不 是 特定 的 应 用 程序 。 


本 章 训 明了 性 能 工具 (如 sar 和 vmstat) 如 何 被 用 于 从 运行 系统 中 提取 其 系统 级 内 存 统计 信息 。 这 些 工具 的 输出 表明 了 系统 
作为 一 个 整体 是 怎样 使 用 可 用 内 存 的 。 下 一 章 将 靖 述 研究 单个 进程 的 CPU 使 用 情况 的 工具 。 


第 4 章 ”性能 工具 : 特定 进程 CPU 


在 用 系统 级 性 能 工具 找 出 是 哪个 进程 降低 了 系统 速度 之 后 ， 你 需要 用 特定 进程 性 能 工具 来 友 现 这 个 进程 的 行为 。 对 
此 ，Linux 提 供 了 丰富 的 工具 用 于 追 踊 一 个 进程 和 应 用 程序 性 能 的 重要 统计 信息 。 


阅读 本 章 后 ， 你 将 能 够 : 
` 确定 应 用 程序 的 运行 时 间 是 花费 在 内 核 上 还 是 在 应 用 程序 上 。 
- 确定 应 用 程序 有 哪些 库 调 用 和 系统 调用 ， 以 及 它们 花费 的 时 间 。 


:分析 应 用 程序 ， 找 出 哪些 源 代 码 行 和 函数 的 完成 时 间 最 长 。 


4.1 ”进程 性 能 统计 信息 


分 析 应 用 程序 性 能 的 工具 多 种 多 样 ， 并 且 从 UNIX 早 期 融 以 各 种 形式 仔 任 了 。 要 了 解 一 个 应 用 程序 的 性 有 能， 全 天 重要 的 一 点 
束 是 理解 它 与 操作 系统 、CPU 和 存储 系统 是 怎样 进行 交互 的 。 大 多 数 应 用 程序 不 是 独立 的 ， 因 此 需要 一 些 对 Linux 内 核 和 不 同 的 
肖 数 库 的 调用 。 这 些 对 Linux 内 核 的 调用 (或 系统 调用 ) 可 能 是 简单 的 ， 如 “我 的 PID 是 什么 ? ”; 也 可 能 是 复杂 的 ， 如 “从 磁 
盘 读 取 12 个 数据 块 ”。 不 同 的 系统 调用 会 产生 不 同 的 性 能 影响 。 相 应 的 ， 库 调用 也 可 以 简单 如 内 存 分 配 ， 复 杂 如 创建 图 形 窗 
口 。 这 些 库 调用 也 有 不 同 的 性 能 特点 。 


4.1.1 ”内 核 时 | 间 vs. 用 户 时 间 
一 个 应 用 程序 所 耗 时 间 最 基本 的 划分 是 内 核 时 间 与 用 户 时 间 。 内 核 时 间 是 消耗 在 Linux 内 核 上 的 时 间 ， 而 用 户 时 间 则 是 消耗 
在 应 用 程序 或 库 代 码 上 的 时 间 。Linux 有 工具 ， 如 time 和 ps， 可 以 (大 致 ) 表明 应 用 程序 将 其 时 间 是 花 在 了 应 用 程序 代码 上 还 是 


花 企 了 内 核 代码 上 上。 同时， 还 有 如 oprofile 和 strace 这 样 的 命令 使 你 能 跟 路 哪些 内 核 调用 是 代表 该 进程 发 起 的 ， 以 及 每 个 调用 完 
成 需要 多 少时 间 。 


4.1.2 ” 库 时 间 vs. 应 用 程序 时 间 


任何 应 用 程序 ， 即 便 其 复杂 性 非常 低 ， 也 需要 依赖 系统 库 才 能 执行 复杂 的 操作 。 这 些 库 可 能 会 导致 性 能 问题 ， 因 此 ， 能 够 查 
看 应 用 程序 在 某 个 库 中 花费 了 多 少时 间 就 很 重要 了 了。 虽然 为 了 解决 一 个 问题 而 去 修改 库 的 源 代码 并 不 总 是 实用 ， 但 是 可 以 改变 应 
用 程序 代码 来 调用 不 同 的 库 消 数 ， 或 者 是 调用 更 少 的 库 销 数 。 在 库 被 应 用 程序 使 用 时 ，|ltrace 命 令 和 oprofile 工 具 包 提供 了 分 析 
库 性 能 的 途径 。Linux 加 载 器 Id 的 内 置 工具 帮助 你 确定 使 用 多 个 库 是 否 会 减 慢 应 用 程序 的 局 动 时 间 。 


4.1.3” 细 分 应 用 程序 时 间 


当 已 经 类 道 某 应 用 程序 是 瓶颈 后 ，Linux 可 以 向 你 提供 工具 来 分 析 这 个 应 用 程序 ， 以 找 出 在 这 个 程序 中 ， 时 间 都 化 在 了 哪 
里 。 工 具 gprof 和 oprofile 可 以 生成 应 用 程序 的 配置 文件 ， 确 定 是 哪些 源 代码 行 化 费 了 大 量 的 时 间 。 


4.2 工具 


Linux 有 各 种 各 样 的 工具 来 帮助 你 确定 应 用 程序 的 哪些 部 分 是 CPU 的 主要 消费 者 。 本 书 束 对 这 些 工具 进行 说 明 。 


4.2.1 time 


time 命 令 完 成 一 项 基本 功能 ， 当 需要 测试 一 条 命令 的 性 能 时 ， 通 常会 首先 运行 它 。time 命 令 如 同 秒表 一 样 ， 可 以 测量 命令 
执行 的 时 | 间 。 它 测量 的 时 间 有 三 种 类 型 : 第 一 种 测量 的 是 真正 的 或 经 过 的 时 间 ， 即 程序 开始 到 结束 执行 之 间 的 时 间 ; 第 二 种 测量 
的 是 用 户 时 间 ， 即 CPU 代表 该 程序 执行 应 用 代码 所 人 花费 的 时 间 ; 第 三 种 测量 的 是 系统 时 间 ， 即 CPU 代表 该 程序 执行 系统 或 内 核 
代码 所 化 费 的 时 间 。 


4.2.1.1 CPU 性 能 相关 的 选项 
time 命 令 (参见 表 4-1) 调用 方式 如 下 : 
time [-v] application 


对 application 程 序 计 时 ， 在 其 完成 后 ， 在 标准 输出 上 显示 它 的 CPU 使 用 情况 。 


选 项 说 明 
详细 显示 了 程序 的 时 间 和 统计 信息 。 有 些 统计 项 为 怜 ， 但 是 Linux 内 核 v2.6 比 v2.4 具备 更 多 的 有 
效 统 计 项 
| 


大 多 数 有 效 统计 项 既 出 现在 标准 模式 中 ， 也 出 现在 详细 模式 中 ,不 过 详细 模式 为 每 个 统计 信息 都 
提供 了 更 好 的 说 明 


表 4-2 对 time 命 令 提 供 的 有 效 输出 统计 信息 进行 了 解释 。 其 他 项 不 进行 测量 ， 且 总 是 显示 为 零 。 


表 4-2 “与 CPU 相关 的 time 输 出 


选 ”项 党 明 
User time(seconds ) CPU 花费 在 应 用 程序 上 的 秒 数 
System time(seconds) | CPU 代表 应 用 程序 花费 在 Linux 内 核 上 的 秒 数 
Elapsed(wall-clock)time(h:mm:ss or m:ss) | 应 用 程序 从 局 动 到 完成 所 经 历 的 时 间 ( 按 墙 钟 时 间 计 ) 
Percent of CPU this job got | 进程 运行 时 消耗 CPU 的 百分比 


下 


Major(requiring I/0)page faults 主 缺 页 故障 的 数量 或 需要 从 磁盘 读 取 内 存 页 的 页 故障 数量 
Minor(reclaiming a frame)page faults 次 缺 页 故障 的 数量 或 不 需要 访问 磁盘 即 可 解决 的 页 故障 


Swaps 进程 被 交换 到 磁盘 的 次 数 

Voluntary context switches 进程 让 出 CPU (比如 ， 进 入 睡眠 状态 ) 的 次 数 
Involuntary context switches: 进程 被 迫 让 出 CPU 的 次 数 

Page size(bytes) 系统 的 页 面 大 小 

Exit status | 应 用 程序 的 退出 状态 


这 个 命令 是 局 动 调查 的 恨 好 开端 。 它 显示 了 应 用 程序 执行 了 多 长 时 间 ， 其 中 ， 多 少时 间 花 费 在 Linux 内 核 上 ， 多 少时 间 花 费 
在 你 的 应 用 程序 上 。 


4.2.1.2 ”用 法 示例 


包含 在 Linux 中 的 time 命 令 是 跨 平台 GNU 工 具 的 一 部 分 。 默 认命 令 输 出 会 打印 命令 运行 的 大 量 统计 信息 ， 即 使 Linux 不 支持 
它们 。 如 果 数 据 不 可 用 ， 那 么 time 就 只 打印 一 个 零 。 下 面 的 命令 是 对 time 的 一 个 简单 调用 。 你 可 以 在 清单 4 1 中 看 到 ， 经 过 的 时 
间 ( 约 3 秒 ) 远大 于 用 户 时 间 (0.9 秒 ) 和 系统 时 间 (0.13 秒 ) 的 总 和 ， 这 是 因为 应 用 程序 的 大 部 分 时 间 是 用 来 等 待 输入 的 ， 而 少 
量 的 时 间 是 用 于 处 理 器 的 。 


清单 4.1 


Eh 


[ezolt@wintermute manuscript]$ /usr/bin/time gcalctool 


0.91user 0.13system 0:083.37elapsed 30%CPU (0avgtext+0Oavgdata QOmaxresident)k 


Qinputs+Qoutputs (2085major+369minor)pagefaults Qswaps 


清单 4.2 是 time 显 示 详 细 信 息 的 例子 。 如 同 你 看 到 的 ， 这 个 输出 比 time 的 典型 输出 显示 了 更 多 的 信息 。 遗 憾 的 是 ， 大 部 分 统 
计数 据 都 是 零 ， 因 为 Linux 不 支持 它们 。 大 多 数 情 况 下 ， 详 细 模 式 下 提供 的 信息 与 标准 模式 下 提供 的 信息 是 一 样 的 ， 但 其 统计 信 
息 的 标签 更 具有 摘 述 性 。 在 这 个 例子 中 ， 我 们 可 以 看 到 ， 进 程 运行 时 使 用 了 15% 的 CPU， 运 行 用 尸 代码 的 时 间 为 1.15 秒 ， 运 行内 
核 代 码 的 时 间 为 0.12 秒 。 它 罕 计 有 2087 个 主 缺 页 故障 ， 或 需要 访问 磁盘 的 内 存 故 障 ; 有 371 个 不 需要 访问 磁盘 的 缺 页 故障 。 大 量 
的 主 缺 页 故障 表明 ， 在 应 用 程序 试图 使 用 内 存 时 ， 操 作 系 统 在 不 断 的 访问 磁盘 ， 这 极 有 可 能 意味 着 进行 了 大 量 的 交换 。 


清单 4.2 


[ezolt@wintermute manuscript]$ /usr/bin/time --verbose gcalctool 


Elapsed 
Average 
Average 
Average 
Average 
Maximum 


Average 


Command being timed: "gcalctool" 

User time (seconds): 1.15 

System time (seconds): 0.12 

Percent of CPU this job got: 15% 

(wall clock) time (h:mm:ss or m:ss): 0:08.02 
shared text size (kbytes): 0 

unshared data size (kbytes): 0 

stack size (kbytes): 0 

total size (kbytes): 0 

resident Set Size (kbytes): 0 


resident Set size (kbytes): 0 


Major (requiring I/0) page faults: 2087 


Minor (reclaiming a frame) page faults: 371 


Voluntary context switches: 0 


Involuntary context switches: 0 


Swaps: 0 


File system inputs: 0 


File system outputs: 0 


Socket messages sent: 0 


Socket messages received: 0 


Signals 


delivered: 0 


Page size (bytes): 4096 


Exit status: 0 


请 注意 ，bash shell 有 内 置 time 命 令 ， 因 此 ， 如 果 你 运行 bash 并 在 没有 指定 执行 路 径 的 情况 下 执行 time， 你 将 得 到 如 下 输 


[ezolt@wintermute manuscript]$ time gcalctool 


real 
User 


Sys 


om3 .409S 
om0 .960s 
Om0 .090s 


bash 内 置 的 time 命 令 是 很 有 用 的 ， 但 是 它 提供 的 是 进程 执行 信息 的 子 集 。 


4.2.2 strace 


strace 是 当 程序 执行 时 ， 退 路 其 友 起 的 系统 调用 的 工具 。 系 统 调用 是 由 或 代表 一 个 应 用 程序 进行 的 Linux 内 核 消 数 调 用 。 
strace 可 以 展示 准确 的 系统 调用 ， 它 在 确定 应 用 程序 是 如 何 使 用 Linux 内 核 的 方面 是 相当 有 用 的 。 在 分 析 大 型 程序 或 你 完全 不 懂 
的 程序 时 ， 跟 路 系统 调用 的 频率 和 长 度 是 特别 有 价值 的 。 通 过 查看 strace 的 输出 ， 你 可 以 了 解 应 用 程序 如 何 使 用 内 核 ， 以 及 它 依 
赖 于 什么 类 型 的 沙 数 。 

如 果 你 完全 理解 了 一 个 应 用 程序 ， 但 是 它 有 向 系统 库 (如 libc 或 GTK) 发 起 了 调用 ， 那 么 此 时 ，strace 也 是 很 有 用 的 。 在 这 
种 情况 下 ， 即 使 你 知道 应 用 程序 是 如 何 进行 每 一 个 系统 调用 的 ， 库 也 可 能 会 代表 你 的 应 用 程序 进行 更 多 的 系统 调用 。strace 可 以 
迅速 告诉 你 这 些 库 都 进行 了 哪些 调用 。 

里 然 strace 主 要 用 于 跟 踩 进程 与 内 核 乙 间 的 交互 ， 显 示 应 用 程序 的 每 个 系统 调用 的 参数 和 结果 ， 但 是 strace 也 可 以 提供 不 那 
么 令 人 生 上 四 的 汇总 信息 。 应 用 程序 运行 乙 后 ，strace 会 给 出 一 个 表格 ， 显 示 每 个 系统 调用 的 频率 和 该 类 型 调用 所 化 费 的 总 的 时 
间 。 这 个 表格 可 以 作为 理解 你 的 程序 与 Linux 内 核 之 间 交 互 的 首 个 关键 信息 。 


4.2.2.1 CPU 性 能 相关 的 选项 
如 下 的 strace 调 用 对 性 能 测试 是 最 有 用 的 : 


strace [-c] [-p pidj [-o file] [--help] { command [ arg ... |]] 


如 果 strace 不 带 任何 选项 运行 ， 它 将 在 标准 错误 输出 上 显示 给 定 命 令 的 所 有 的 系统 调用 。 在 试图 发 现 为 什么 应 用 程序 在 内 核 
中 花费 了 大 量 时 间 时 ， 这 是 很 有 帮助 的 。 表 4-3 说 明了 一 些 strace 选 项 ， 它 们 在 跟踪 性 能 问题 时 也 是 有 用 的 。 


表 4-3 sttace 命 令 行 选 项 


选 项 说 明 

一 C 使 strace 打印 出 统计 信息 的 概要 ， 而 非 所 有 系统 调用 的 独立 列表 
-p pid 将 给 定 PID 添加 到 进程 ， 并 开始 跟 足 

-0 file strace 的 输出 将 保存 到 file 

——help | 列 出 strace 选项 的 完整 汇总 


表 4-4 解 释 了 strace 汇 忌 选项 输出 的 统计 信息 。 每 一 行 输出 都 说 明了 特定 系统 调用 的 一 组 统计 数据 。 


尽管 上 述说 明 的 选项 是 与 性 能 调查 最 相关 的 ， 但 是 strace 也 可 以 对 其 跟踪 的 系统 调用 进行 类 型 过 滤 。strace 说 明 页 和 --help 
选项 详细 解释 了 用 于 选择 要 跟 路 哪些 系统 调用 的 选项 。 对 一 般 的 性 能 优化 ， 通 常 没有 必要 使 用 它们 ; 不 过 如 果 需 要 的 话 ， 它 们 也 
是 存在 可 用 的 。 


表 4-4 与 CPU 相 关 的 strace 输 出 


说 明 
该 项 为 这 一 个 系统 调用 所 花 时 间 的 百分比 


选 项 
% time 对 全 部 系统 调用 的 总 时 间 来 说 ， 
seconds 这 一 个 系统 调用 所 花费 的 总 秒 数 


usecs/call 


calls 这 个 类 型 的 所 有 调用 的 总 数 


这 个 类 型 的 一 个 系统 调用 所 花费 的 微 秒 数 


errors 这 个 系统 调用 返回 错误 的 次 数 


4.2.2.2 ”用 法 示例 


清单 4.3 是 用 strace 收 集 一 个 应 用 程序 的 系统 调用 统计 信息 的 例子 。 如 你 所 见 ，strace 提 供 了 对 系统 调用 非常 好 的 分 析 ， 这 些 
调用 是 代表 应 用 程序 执行 的 ， 在 这 里 ， 这 个 应 用 程序 就 是 oowriter。 本 例 中 ， 我 们 查看 oowriter 是 如 何 使 用 read 系 统 调用 的 。 
我 们 看 到 read 占 用 了 209% 的 时 间 ， 共 消耗 了 0.44 秒 。 它 被 调用 了 2427 次 ， 平 均 下 来 ， 一 次 调用 的 时 间 为 184 微 秒 。 在 这 些 调用 


中 ， 有 26 次 返回 了 错误 。 


清单 4.3 


[ezolt@wintermute tmp]$ strace -C oowriter 


execve("/usr/bin/oowriter", ["oowriter"], [/* 35 vars */]) = 0 


Starting OpenOffice.org ... 


% time seconds vsecs/call calls 
20.57 0.445636 184 2427 
【和 2 0.395386 229 1727 
11.69 0.253217 338 750 
10.81 0.234119 16723 14 

9 .53 0.206461 1043 198 
4.73 0.102520 201 511 
4.58 0 .099290 154 646 
4.41 0.095495 58 1656 
2.51 0.054279 277 196 
2.32 0.050333 123 408 
2.07 0.044863 66 681 
1.98 0.042879 997 43 
1.18 0.025614 12 2107 
0.95 0.020563 1210 这 
0.67 0.014550 231 63 
0.58 0.012656 44 286 
0.53 0.011399 68 167 
0.50 0.010776 203 53 


errors syscall 


本 


26 read 
write 
514 access 
6 waitpid 
select 
55 stat64 
gettimeofday 
15 lstat64 
munmap 
close 
297 open 
writev 
lseek 
unlink 
getdents64 
mmap2 
2 ioctl 


Feadv 


0.44 0.009500 2375 全 3 mkdir 


0.33 0.007233 603 12 Clone 

0.29 0.006255 28 224 old mmap 

0.24 0.005240 2620 2 vfork 

0.24 0.005173 50 104 rt sigprocmask 
0.11 0 .002311 8 295 fstat64 


strace 善 于 跟 路 进程 ， 但 是 它 在 一 个 应 用 程序 上 运行 时 会 产生 一 些 开销 。 其 结果 就 是 ，strace 报 告 的 调用 次 数 可 能 会 比 它 报 
告 的 每 个 调用 的 时 间 要 更 加 可 靠 一 些 。 应 使 用 strace 提 供 的 次 数 作为 调查 的 起 点 ， 而 不 是 每 个 调用 所 人 花费 时 间 的 局 度 精 确 的 测量 


值 。 


4.2.3 |trace 


ltrace 与 strace 的 概念 相似 ， 但 它 跟 路 的 是 应 用 程序 对 库 的 调用 而 不 是 对 内 核 的 调用 。 昌 然 |trace 主 要 用 于 提供 对 库 调 用 的 
参数 和 返回 值 的 精确 跟踪 ， 但 是 你 也 可 以 用 它 来 汇总 每 个 调用 所 人 花 的 时 间 。 这 使 得 你 既 可 以 友 现 应 用 程序 有 哪些 库 调 用 ， 又 可 以 


上 友 现 每 个 调用 时 间 是 多 长 。 


使 用 ltrace 要 小 心 ， 因 为 它 会 产生 具有 误导 性 的 结果 。 如 果 一 个 库 消 数 调 用 了 另 一 个 函数 ， 则 花费 的 时 间 要 计算 两 次 。 比 


如 ， 如 果 库 函数 foo () 调用 了 水 数 bar() ， 则 遂 数 foo () 的 报告 时 间 将 是 函数 foo () 代码 运行 的 全 部 时 间 再 加 上 男 数 
bar () 人 花费 的 时 间 。 

记 住 了 这 个 注意 事项 ，|trace 就 还 是 揭示 应 用 程序 如 何 表现 的 有 用 的 工具 。 

4.2.3.1 CPU 性 能 相关 的 选项 

ltrace 提 供与 strace 相 似 的 功能 ， 其 调用 方法 也 和 strace 相 过 : 

ltrace [-c] [-p pid] [-0 filename] [-S] [--help] command 

在 上 面 的 调用 中 ，command 是 你 想 要 |trace 跟 踪 的 命令 。 如 果 |trace 不 带 选 项 ， 它 将 在 标准 错误 输出 上 显示 所 有 的 库 调 

用 。 表 4-5 解 释 了 与 性 能 调查 最 相关 的 ltrace 选 项 。 


表 4-5 ”ltrace 命 令 行 选项 


选 项 说 明 

一 C 使 得 1trace 在 命令 执行 完 后 打印 出 有 所 有 调用 的 汇总 

一 S 除了 库 调用 之 外 ，1trace 还 跟 中 系统 调用 ， 该 项 与 strace 提供 的 功能 相同 
-p pid 跟踪 有 给 定 PID 的 进程 

-0 file | 将 1trace 的 输出 保存 到 file 

-- help | 显示 1trace 的 帮助 信息 


同样 的 ， 汇 总 模式 (summary mode) 提供 了 应 用 程序 执行 期 间 的 库 调 用 的 性 能 统计 信息 。 表 4-6 说 明了 这 些 统计 数据 的 合 
Ms 


表 4-6 与 CPU 相 关 的 ltrace 输 出 


选 ”项 说 。 明 


% time | “相对 库 调 用 花费 的 总 时 间 ， 该 项 是 这 一 个 库 调 用 所 花 时 间 的 百分比 
seconds 该 项 为 这 一 个 库 调用 所 用 的 总 秒 数 

usecs/call 该 项 为 这 个 类 型 中 一 个 库 调 用 所 花 的 微 秒 数 

Be 该 项 为 这 个 类 型 调用 的 总 数 : 

function 该 项 为 库 调 用 的 名 称 


丈 像 strace，|trace 有 大 量 的 选项 可 以 修改 其 跟踪 的 功能 。|trace 的 --help 命 令 摘 述 了 这 些 选 项 ， 详 细 情 况 见 于 ltrace 襄 明 


4.2.3.2 ”用 法 示例 


清单 4.4 是 |trace 运 行 于 Xeyes 命 令 的 简单 例子 。xeyes 是 一 个 XWindow 应 用 程序 ， 其 功能 是 随 看 你 的 鼠标 指针 在 屏幕 上 弹出 
一 双眼 睛 。 


清单 4.4 


[ezolt@localhost manuscript]$ ltrace -C /usr/X11R6/bin/xeyes 


% time seconds usecs/call calls function 
18.65 0.065967 65967 1 XSetWMProtocols 
LE 0 .060803 86 702 hypot 
12.06 0.042654 367 116 XQueryPointer 
9.51 0.033632 33632 1 XtAppInitialize 
8.39 0.029684 84 353 XFillArc 
7.13 0 .025204 107 234 C0S 
6 .24 0.022091 94 234 atan2 
3 0.019656 84 234 Siln 
4.62 0.016337 139 117 XtAppAddTimeOut 
3.19 0.011297 95 118 XtWidgetToApplicationContext 
3.06 0.010827 91 118 XtWindowofobject 
1.39 0.004934 4934 1 XtRealizeWidget 
1.39 0.004908 2454 2 XcreateBitmapFromData 
0.65 0.002291 2291 1 XtCreateManagedWidget 
0.12 0.000429 429 1 XShapeQueryExtension 
0.09 0.000332 332 1 XInternAtom 
0.09 0 .000327 81 4 XtDisplay 
0.09 0.000320 106 3 XtGetGC 
0.05 0.000168 84 2 XSetForeground 
0.05 0.000166 83 2 XtScreen 
0.04 0.000153 153 1 XxtParseTranslationTable 
0.04 0.000138 138 1 XtSetValues 


.04 @.000129 129 1 xmucCvtStriIngToBackingStore 
@ .03 0.000120 120 1 XtDestroyApp1lLicationconteXt 
0.03 0.000116 116 1 XtAppAddActions 
0.03 0.000109 1@9 1 XCreatePixmap 
@ .03 0.000108 108 1 xtSetLanguageProc 
0.03 0.000104 104 1 xtOverrideTranslations 
0.03 0.000102 102 1 XtWindow 
0 .03 0.000096 96 1 xtAddConverter 
@.03 @ .000093 93 1 XtCreateWindow 
0.03 0.000093 93 1 xFillRectangle 
0.03 0.000089 89 1 XCreateGC 
@ .03 0.000089 89 1 xShapeCombineMask 
0@. 02 @.000087 87 1 XclearWindow 
0.02 0.000086 86 1 xFreePixmap 
100.00 0.353739 2261 total 


在 清单 4.4 中 ， 库 函数 XSetWMProtocols、hypot、XQeuryPointer 分 别 占 用 了 在 库 中 所 花 总 时 间 的 18.65%、17.19% 和 
12.06%。 消 耗 时 间 第 二 多 的 函数 hypot， 其 调用 次 数 为 702 次 ， 而 消耗 时 间 第 一 多 的 函数 XSetWM Protocols， 其 调用 次 数 仅 为 1 
次 。 除 非 我 们 的 应 用 程序 能 够 完全 删 去 对 XsSetWMProtocols 的 调用 ， 人 否则 不 管 它 需 要 多 少时 间 ， 我 们 都 会 被 这 个 时 间 所 制约 。 
我 们 最 好 将 注意 力 转 向 hypot。 这 个 函数 的 每 次 调用 都 是 相对 轻 量 级 的 ， 因 此 ， 如 果 我 们 能 减少 它 的 调用 次 数 ， 融 有 可 能 加 快 该 
应 用 程序 的 速度 。 假 如 xeyes 应 用 程序 是 一 个 性 能 问题 ， 那 么 hypot 也 许 是 第 一 个 要 被 调查 的 函数 。 起 初 ， 我 们 想 确 定 hypot 是 
做 什么 的 ， 但 是 叉 不 清楚 它 记 录 在 什么 地 方 。 那 么 是 否 有 可 能 ， 我 们 可 以 找 出 hypot 属 于 哪个 库 ， 然 后 阅读 这 个 库 的 文档 。 本 例 
中 ， 我 们 不 必 先 去 找 库 ， 因 为 hypot 函 数 有 说 明 页 。 运 行 man hypot 就 可 以 告诉 我 们 ，hypot 函 数 计 算 两 点 之 间 的 距离 (和 斜 
边 ) ， 它 是 数学 库 libm 的 一 部 分 。 但 是 ， 库 中 国 数 有 可 能 是 没有 说 明 页 的 ， 因 此 ， 我 们 需要 确定 这 些 没 有 这 明 页 的 函数 是 属于 
哪个 库 的 。 遗 憾 的 是 ，ltrace 不 会 明显 地 表示 一 个 国 数 是 来 自 于 哪个 库 的 。 要 提 出 这 一 点 ， 我 们 必须 使 用 Linux 工 具 ldd 和 
objdump。 首 先 ，Idd 用 于 显示 一 个 动态 链接 的 应 用 程序 使 用 了 哪些 库 。 其 次 ，objdump 用 于 在 每 个 库 中 查找 给 定 的 函数 。 在 
清单 4.5 中 ， 我 们 用 ldd 来 查看 xeyes 应 用 程序 使 用 了 哪些 库 。 


清单 4.5 


[ezolt@localhost manuscript]$ ldd /usr/X11R6/bin/xeyes 
linux-gate.so.1 => (0x00ed3000 ) 
libXmy.so.6 => /usr/X11R6/1ib/1libXmuyu.so.6 (0Ox00cd4000) 
libXt.so.6 => /usr/X11R6/1ib/1libXt.so.6 (0Ox00a17000 ) 


LibSM.sSo,6 => /usr/X11R6/1ib/1ibSM.so.6 (0x00368000 ) 
libICE.so.6 => /USFr/X11R6/1ib/1ibICE,so.6 (0x0034f000) 
libXext.so.6 => /usr/X11R6/1ib/libXext.so.6 (0x0032c000) 
libX11.s0.6 => /usr/X11R6/1ib/1libX11.so.6 (0Ox00262000 ) 
libm.so.6 => /lib/tls/libm.so.6 (0x00237000) 

libc.so.6 => /lib/tls/libc.so.6 (0x0011a000) 

libdl.so.2 => /lib/libdl.so.2 (0x0025c000) 
/lib/ld-linux.so.2 => /lib/ld-linux.s0.2 (0x00101000) 


现在 ldd 命 令 已 经 显示 了 xeyes 使 用 的 库 ， 我 们 可 以 用 objdump 命 令 来 找 出 这 些 函 数 来 自 哪 个 库 。 在 清单 4.6 中 ， 我 们 在 
Xeyes 链 接 的 每 个 库 中 查找 hypot 符 号 。 RE (主要 是 阔 数 ) 。 通 过 使 用 fgrep 至 
看 带 有 .text 的 输出 行 ， 我 们 可 以 发 现 是 哪些 库 输出 hypot 国 数 。 本 例 中 ，libm 库 是 唯一 合 有 hypot 六 数 的 库 。 


清单 4.6 


[/tmp]$ objdump -T /usr/X11R6/1ib/libXmu.so.6 | fgrep ".text" | grep "hypot" 
[/tmp]$ objdump -T /usr/X11R6/1ib/libXt.so.6 | fgrep ".text" | grep "hypot" 
[/tmp]$ objdump -T /usr/X11R6/1ib/libSM.so.6 | fgrep ".text" | grep "hypot" 


[/tmp]$ objdump -T /usr/X11R6/1ib/libICE.so.6 | fgrep ".text" 


grep "hypot" 
[/tmp]$ objdump -T /usr/X11R6/1ib/libXext.so.6 | fgrep ".text" | grep "hypot'" 
[/tmp]$ objdump -T /usr/X11R6/1ib/1libX11.so0.6 | fgrep 


.text" | grep "hypot" 


[/tmp]$ objdump -T /lib/tls/libm.so.6 | fgrep ".text" | grep "hypot" 
00247520 W DF .text 000000a9 GLIBC 2.0 hypotf 

0024e810 WwW DF .text 00000097 GLIBC 2.0 hypot1 

002407c0 WwW DF .text 00000097 GLIBC 2.0 hypot 


[/tmp]$ objdump -T /lib/tls/libc.so.6 | fgrep ".text" | grep "hypot" 


[/tmp]$ objdump -T /lib/libdl.so.2 | fgrep ".text" | grep "hypot" 


[/tmp]$ objdump -T /lib/ld-linux.so.2 | fgrep ".text" | grep "hypot" 


下 一 步 应 该 浏 唤 Xeyes 源 代码 找 出 hypot 是 在 哪里 被 调用 的 ， 如 果 可 能 的 话 ， 减 少 其 调用 的 次 数 。 或 者 还 有 一 种 方法 ， 玛 看 
人 并 尝试 优化 库 的 源 代码 。 


通过 调查 哪个 库 调 用 需要 很 长 的 时 间 来 完成 ，ltrace 使 你 能 确定 应 用 程序 的 每 个 库 调 用 的 成 本 。 


4.2.4 ps (进程 状态 ) 


ps 是 极 好 的 跟 踊 运行 进程 的 命令 。 
给 出 正在 运行 进程 的 详细 的 静 仿 和 动态 统计 信息 。 ps 提供 的 静态 信息 包括 命令 名 和 PID， 动 态 信息 包括 内 存 和 和 CPU 的 当前 
使 用 情 ) 
4.2.4.1 CPU 性 能 相关 的 选项 


本 6 检索 正在 运行 中 的 应 用 程序 的 各 种 统计 信息 。 下 面 的 调用 给 出 了 与 CPU 性 能 最 相关 的 选项 ， 并 将 


ps [-0 etime,time,pcpu,command] [-u user] [-U user] [PID] 


ps 命令 是 出 现 最 早 的 、 功 能 丰富 的 用 于 提取 性 能 信息 的 命令 之 一 ， 因 此 ， 绝 大 多 数 人 都 会 选择 使 用 它 。 若 只 看 全 部 功能 的 
一 个 子 集 ， 它 就 更 易于 管理 。 表 4-7 包 含 了 与 CPU 性 能 最 相关 的 选项 


选 项 说 明 
该 项 允许 你 明确 规定 想 要 跟踪 的 进程 统计 信息 。 不 同 的 统计 项 由 一 个 没有 空格 的 、 
用 逗号 分 隐 的 列表 指定 
etime 统计 信息 : 经 过 时 间 是 指 从 程序 开始 执行 起 耗费 的 总 的 时 间 
time 统计 信息 : CPU 时 间 是 指 进程 运行 于 CPU 所 花费 的 系统 时 间 加 
| 上 用 户 时 间 。 
ai pcpu | “统计 信息 : 进程 当前 消耗 的 CPU 的 白 分 比 

统计 信息 : 命令 名 

ee -A 显 所 有 进程 的 统计 信息 
—-Uu User 显示 指定 有 效用 户 ID 的 所 有 进程 的 统计 信息 
-U user 显示 指定 用 户 ID 的 所 有 进程 的 统计 信息 


除了 CPU 统计 信息 之 外 ，ps 还 提供 了 数量 庞大 的 各 种 统计 信息 ， 其 中 的 一 些 ， 比 如 进程 的 内 存 使 用 情况 ， 将 在 后 续 章 节 中 
讨论 ， 


4.2.4.2 ”用 法 示例 


这 个 例子 是 一 个 测试 程序 ， 它 使 用 了 88% 的 CPU ， 运 行 了 6 秒 ， 但 是 消耗 的 CPU 时 间 只 有 5 秒 : 


[ezolt@wintermute tmp]$ ps -0 etime time,pcpu,cmd 10882 
ELAPSED TIME %CPU CMD 
00:06 00:00:05 88.0 ./burn 


清单 4.7 中 ， 我 们 没有 调查 具体 进程 的 CPU 性 能 ， 而 是 查看 了 特定 用 户 运行 的 全 部 进程 。 这 可 能 会 揭示 特定 用 户 消耗 的 资源 
量 的 信息 。 本 例 中 ， 我 们 查看 用 户 netdump 运 行 的 所 有 进程 。 幸 运 的 是 ，netdump 是 一 个 很 单调 的 用 户 ， 它 只 运行 了 bash 和 
top， 其 中 ，bash 不 占用 任何 CPU， 而 top 只 占用 了 0.5% 的 CPU。 


与 time 不 同 ，ps 使 我 们 能 监控 当前 正在 运行 的 进程 的 信息 。 对 于 运行 时 间 较 长 的 工作 ， 你 可 以 用 ps 定期 检查 进程 的 状态 
(而 不 是 在 程序 已 经 执行 完 后 ， 用 它 来 提供 该 程序 执行 的 统计 信息 ) 。 


清单 4.7 


[/tmp]$ ps -0 time,pcpuyu,command -u netdump 
TIME %CPU COMMAND 

00:00:00 0.0 -bash 

0:00:00 .5 上 top 


4.2.5 ”|d.so (动态 加 载 器 ) 


执行 一 个 动态 链接 应 用 程序 时 ， 首 先 运行 的 是 Linux 加 载 器 Id.so。1d.so 加 载 该 应 用 程序 所 有 的 库 ， 并 将 它 使 用 的 符 


号 与 库 提 
供 的 函数 天 联 起 来 。 因 为 不 同 的 库 最 切 被 链接 到 内 和 仓 中 的 不 同位 置 ， 这 些 位 置 还 可 能 是 重 亚 的， 链接 器 需要 对 所 有 的 符号 进行 排 


序 ， 以 确保 每 个 符号 都 位 于 内 存 中 的 不 同位 置 。 一 个 符号 从 一 个 虚拟 地 址 移动 到 另 一 个 虚拟 地 址 ， 束 被 称 为 重 定位 
(relocation) 。 加 载 器 做 这 项 工作 是 需要 时 间 的 ， 如 果 它 完全 不 用 去 做 那 融 更 好 了 。 预 链接 应 用 程序 的 目标 残 是 通过 重 排 整个 
系统 的 系统 库 来 完成 这 项 工作 ， 以 保证 它们 不 会 相互 重症 。 需 要 进行 大 量 重 定位 的 应 用 程序 可 能 没有 被 预 链接 过 。 


上 月 65/ 又 


Linux 加 载 器 的 运行 不 需要 用 尸 进行 任何 干预 ， 只 需 执 行 一 个 动态 程序 即 可 ， 它 是 目 动 运行 的 。 虽 然 加 载 器 的 执行 对 用 忆 来 
襄 是 隐藏 的 ， 但 是 它 的 执行 仍然 要 花 时 间 ， 这 就 有 可 能 会 延长 应 用 程序 的 启动 时 间 。 当 你 要 了 解 加 载 器 的 统计 信息 时 ， 加 载 器 展 


示 的 是 其 工作 量 ， 以 便 你 能 弄 清 楚 它 是 否 是 瓶颈 。 
4.2.5.1 CPU 性 能 相关 的 选项 


对 使 用 共享 库 的 每 一 个 Linux 应 用 程序 来 说 ，|d 命 令 的 运行 是 不 可 见 的 。 通 过 设置 合适 的 环境 变量 ,我 们 可 以 要 求 它 显 示 其 
执行 的 信息 。 下 面 的 调用 会 影响 ld 的 执行 : 


env LD_DEBUG=statistics,help LD_DEBUG OUTPUT=filename <command> 
加 载 器 的 调试 能 力 完全 用 环境 变量 控制 。 表 4-8 是 对 这 些 变量 的 说 明 。 


表 4-8 1d 环境 变量 


选 项 说 明 
LD_DEBUG=statistics 启动 显示 1d 的 统计 信息 
LD_DEBUG=he1p 显示 可 用 的 调试 统计 信息 


表 4-9 解 释 了 一 些 |dq.so 可 以 提供 的 统计 信息 。 时 间 为 时 钟 周 期 ， 要 将 它 转换 为 墙 钟 时 间 ， 瓯 必须 除 以 处 理 器 的 时 钟 速度 。 
(该 信息 见于 cat/proc/cpuinfo。 ) 


|d 能 提供 的 信息 有 助 于 确定 应 用 程序 开始 执行 之 前 ， 设 置 动 态 库 化 费 了 多 少时 间 。 


表 4-9 “与 CPU 相关 的 ld.so 输 出 


选 项 说 明 
应 用 程序 开始 执行 之 前 ， 加 载 所 花 的 时 间 (以 时 钟 周 期 
total startup time in dynamic loader 、 
为 单位 ) 
time needed for relocation 符号 重 定 位 所 花 的 总 时 间 (以 时 钟 周 期 为 单位 ) 
number of relocations 应 用 程序 开始 执行 前 ， 已 完成 的 新 的 重 定 位 计算 的 数量 
在 应 用 程序 开始 执行 之 前 ， 预 先 计算 并 使 用 的 重 定位 的 
number of relocations from cache ji 量 
女人 有 
number of relative relocations 相对 重 定 位 的 数量 
time needed to load objects 加 载 应 用 程序 使 用 的 全 部 库 所 需 的 时 间 


一 个 应 用 程序 运行 期 间 重 定位 的 总 数 (包括 那些 由 


final number of relocations dd 
dlopen 发 起 的 ) 


final number of relocations from cache 预计 算 的 重 定 位 的 数量 


4.2.5.2 ”用 法 示例 


在 清单 4.8 中 ， 我 们 运行 一 个 应 用 程序 ， 并 用 Id 调 试 定义 的 环境 变量 。 输 出 的 统计 信息 保存 在 lddebug 文 件 中 。 请 注意 ， 加 
载 器 显示 了 两 组 不 同 的 统计 数据 。 第 一 个 显示 了 局 动 时 友 生 的 全 部 重 定位 ， 后 一 个 则 显示 的 是 程序 关闭 后 所 有 的 统计 信息 。 如 果 
应 用 程序 使 用 了 函数 这 些 可 以 是 不 同 的 值 ， 比 如 使 用 函数 dlopen， 它 允许 共享 库 在 程序 开始 执行 后 映射 到 该 应 用 程序 。 本 例 
中 ， 我 们 看 到 加 载 器 时 间 的 83% 都 用 在 定位 上 。 如 果 该 应 用 程序 已 经 预 链接 过 ， 那 么 这 个 时 间 会 下 降 到 接近 于 零 。 


清单 4.8 


[ezolt@wintermute ezolt]$ env LD DEBUG=statistics LD DEBUG OUTPUT=lddebug gcalctool 


[ezolt@wintermute ezolt]$ cat lddebug.2647 


2647: 

2647 : runtime linker statistics: 

2647: total startup time in dynamic loader: 40820767 clock cycles 

2647 : time needed for relocation: 33896920 clock cycles (83.0%) 
2647: number of relocations: 2821 

2647: number of relocations from cache: 2284 

2647 ; number of relative relocations: 27717 

2647: time needed to load objects: 6421031 clock cycles (15.7%) 
2647 : 

2647 : runtime linker statistics: 

2647 : final number of relocations: 6693 

2647 : final number of relocations from cache; 2284 


如 果 1Id 被 确定 为 延长 局 动 时 间 的 原因 ， 那 么 可 以 通过 减少 应 用 程序 依赖 的 库 的 数量 或 者 是 在 系统 上 运行 prelink 的 方法 来 缩 
短 司 动 时 间 。 


4.2.6 gprof 


剖析 Linux 应 用 程序 的 一 种 强 有 力 的 方法 是 使 用 gprof 分 析 命 令 。gprof 可 以 展示 应 用 程序 的 调用 图 ， 并 及 样 该 应 用 程序 的 时 
间 都 花 在 了 哪里 。gprof 的 工作 方式 是 ， 首 先 编译 你 的 应 用 程序 ， 然 后 运行 该 应 用 程序 生成 一 个 采样 文件 。gprof 是 非常 强大 
的 ， 但 是 它 需 要 应 用 源 程 序 ， 并 且 增 加 了 编译 开销 。 尽 管 gprof 可 以 确定 函数 被 调 用 的 精确 次 数 ， 以 及 阔 数 所 化 的 大 致 时 间 ， 但 
是 其 编译 将 有 可 能 改变 应 用 程序 的 时 间 特 性 ， 延 缓 程序 的 执行 。 


4.2.6.1 CPU 性 能 相关 的 选项 
要 用 gprof 齐 析 一 个 应 用 程序 ， 你 必须 访问 应 用 程序 源 。 然 后 还 需 用 如 下 所 示 的 gcc 命 令 编译 该 程序 : 


gcc -gp -9g93 :0 app app.c 


首先 ， 你 必须 用 gcc 的 -gp 选项 来 编译 应 用 程序 ， 开 启 剖 析 功 能 。 须 注意 不 要 与 可 执行 文件 剥离 ， 如 果 用 -g3 选 项 编译 开启 符 
号 会 更 加 有 用 。 符 号 信息 对 使 用 gprof 的 源 注释 特性 是 必须 的 。 当 你 运行 被 编译 过 的 应 用 程序 时 ， 会 生成 一 个 输出 文件 。 然 后 你 
可 以 用 gprof 命 令 来 显示 结果 。gprof 命 令 的 调用 如 下 : 


gprof [-p -flat-profile -q --graph --brief -A -annotated-source ] app 


表 4-10 说 明 的 选项 指定 了 gprof 显 示 的 信息 。 


表 4-10 ”gprof 命 令 行 选项 


选 项 说 明 

0 简化 gprof 的 输出 。 玛 认 情 况 下 ，gprof 输出 全 部 的 性 能 信息 ， 并 
| 用 图 例 解释 每 个 指标 的 含义 。 该 项 删除 了 图 例 

-p or -flat-—profile 显示 应 用 程序 中 每 个 滑 数 花费 的 总 时 间 和 其 调用 次 数 

z 打印 出 已 训 析 的 应 用 程 夺 的 调 月 | 图 ， 其 显示 了 程序 中 的 晴 数 是 如 何 相 

-dq or 一 -graph 三 
互 调 用 的 ， 每 个 晴 数 所 花 的 时 间 ， 以 及 于 函数 所 花 的 时 间 

-A or ——-annotated—source er 


对 一 个 特定 的 剖析 来 况 ， 并 不 是 所有 的 输出 统计 信息 都 是 可 以 得 到 的 。 哪 个 输出 统计 信息 是 可 得 的 取决 于 应 用 程序 是 如 何 为 
了 齐 析 而 做 编译 的 。 


4.2.6.2 ”用 法 示例 


用 gprof 齐 析 一 个 应 用 程序 时 ， 第 一 步 是 用 剖析 信息 编译 该 程序 。 编 译 器 (gcc) 将 剖析 信息 插入 到 应 用 程序 中 ， 访 程序 运 
行 时 ， 人 burn 测 试 程 序 相当 简单 。 它 清除 了 大 学 围 的 内 存 ， 然 后 调用 了 两 个 国 数 : a () 和 
b () ， 这 两 个 孙 数 都 要 访问 此 内 和 存 区 域 。 阔 数 a () 访问 内 存 的 频繁 程度 是 函数 b () 的 10 倍 。 


首先 ,我 们 编译 该 应 用 程序 : 

[ezolt@wintermute test app]j$ gcc -pg -g3 -0 burn_ gprof burn,C 
运行 程序 后 ， 我 们 可 以 分 析 输 出 ， 如 清单 4.9 所 示 。 
清单 4.9 


[ezolt@wintermute test app]$ gprof --brief -p ./burn gprof 
Flat profile: 


Each sample counts as 0.01 seconds. 


% cumulative self self total 
time seconds seconds calls s/call s/call name 
91 .01 5.06 5.06 1 5.06 5.06 a 
8.99 5.56 0.50 1 0.50 0.50 b 


在 清单 4.9 中 ， 你 可 以 看 到 gprof 呈 现 的 是 我 们 已 经 知道 的 关于 该 应 用 程序 的 情况 。 程 序 有 两 个 函数 3 () 和 b () 。 每 个 区 
数 都 调用 了 一 次 ，a () 完成 的 时 间 (91%) 是 b () 完成 时 间 (8.99%) 的 10 倍 。 函 数 3 () 花费 的 时 间 为 5.06 秒 ， 函 数 b ( 
花费 的 时 间 为 0.5 秒 。 


清单 4.10 给 出 了 测试 程序 的 调用 图 。 输 出 中 列 出 的 <spontaneous> 注 释 的 含义 如 下 : 尽管 gprof 没 有 记录 main () 的 任何 
样本 ， 但 它 推断 出 main () 必然 已 经 运行 ， 因 为 肖 数 a () 和 b () 都 有 有 采样， 而 main 是 代码 中 唯一 调用 它们 的 函 数 。gprof 没 
有 记录 main () 的 任何 样本 ， 很 可 能 是 因为 这 个 函数 大 短 了 。 


清单 4.10 


[ezolt@wintermute test app]$ gprof  --brief -q ./burn_ gprof 


Call graph 
granularity: each sample hit covers 4 byte(s) for 0.18% of 5.56 seconds 


index % time self children called name 
<spontaneous> 
[1] 100 .0 0.00 5.56 main [1] 
5.06 0.00 Tl a [2] 
0.50 0.00 1/1 b [3] 
5.06 0.00 1/1 main [1] 
[2] 91.0 5.06 0.00 1 a [2] 
0.50 0.00 1/1 main {1] 
[3] 9.0 0.50 0.00 1 b [3] 


Index by function name 


[2] a [3] b 


最 后 ，gprof 可 以 对 源 代 码 进行 注释 ， 以 展示 每 个 立 数 调用 的 频率 。 请 注意 ， 清 单 4.11 没 有 显示 立 数 消耗 的 时 间 ; 取 而 代 
之 ， 它 显示 的 是 立 数 被 调用 的 次 数 。 在 gprof 前 面 的 例子 中 ，a () 实际 时 长 是 b () 的 10 倍 ， 因 此 优化 时 需要 多 加 人 小心。 不 要 认 
为 被 多 次 调用 的 肖 数 实际 上 使 用 CPU 的 时 间 也 多 ， 而 被 调用 次 数 少 的 浮 数 消耗 的 CPU 时 间 必 然 也 少 。 


清单 4.11 


[ezolt@wintermute test app]$ gprof -A burn gprof 
*** File /usr/src/perf/process specific/test app/burn.c: 


#include <string.h> 


#define ITER 10000 
#define SIZE 10000000 


#define STRIDE 10000 
char test[SIZE]; 


void a{void) 


1 -> { 
int i=0,j=0; 
for (j=0;j<10*ITER ; j++) 
for (i=0;i<SIZE,;i=i+STRIDE) 
{ 
ost[ti++3: 
} 
} 


void b(Vvold ) 


下 
int i=0,]=0; 
for (j=0;j<ITER; j++) 
for (i=0;i<SIZE;i=i+STRIDE) 
{ 
test[1i]++; 
} 
} 
main() 
##### -> 《 


/* Arbitrary value*/ 
memset(test, 42, SIZE); 


Top 10 Lines: 


Line Count 


Execution Summary: 


3 Executable lines in this file 
3 Lines executed 


1@0 .00 Percent of the file executed 


2 Total number of line executions 


0.67 Average executions per line 


gprof 提 供 了 一 个 很 好 的 总 结 ， 可 以 显示 应 用 程序 中 的 冰 数 以 及 源 代码 行 运行 的 次 数 以 及 它们 所 人 花费 的 时 间 。 


4.2.7 oprofile (ll) 


第 2 章 中 讨论 过 ， 你 可 以 使 用 oprofile 跟 路 系统 或 应 用 程序 中 不 同事 件 的 位 置 。 与 gprof 相 比 ，oprofile 是 一 个 低 开销 的 工 
具 。 与 gprof 不 同 ， 它 在 使 用 前 不 需要 对 应 用 程序 进行 二 次 编译 。oprofile 也 可 以 测量 gprof 不 支持 的 事件 。 目 前 ，oprofile 只 支 
持 那 些 gprof 用 内 核 补丁 可 以 生成 的 调用 图 ， 而 gprof 能 够 在 所 有 的 Linux 内 核 上 运行 。 


4.2.7.1 CPU 性 能 相关 的 选项 


2.2.8 世 讨论 的 oprofile 涉 及 的 是 如 何 用 oprofile 开 始 进 行 剖析 。 本 小 蔬 介绍 的 则 是 oprofile 用 于 分 析 进 程 级 采样 结果 的 部 


人 
刀 。 


oprofile 有 一 系列 工具 来 显示 已 收集 的 样本 。 第 一 个 工具 opreport 显 示 的 是 样本 在 可 执行 文件 和 库 的 函数 中 分 布 情况 。 其 调 
用 形式 如 下 : 


opreport [-d --details -f --long-filenames -1 --Symbols -1] application 


表 4-11 解 释 了 几 个 命令 ， 它 们 能 够 修改 由 opreport 提 供 的 信息 的 等 级 。 


第 二 个 你 能 用 来 提取 性 能 样本 信息 的 命令 是 opannotate。opannotate 可 以 将 样本 对 应 到 具体 的 源 代 码 行 或 汇编 指令 。 其 
调用 形式 如 下 : 


opannotate [-a -+-assembly] [-S --source] application 


= 


表 4-11 opreport 命 令 行 选项 


选 项 说 明 


-d or --details 显示 了 全 部 已 采集 样本 的 指令 级 分 类 
-f or --long-filenames 显示 了 被 分 析 应 用 程序 的 完整 路 径 名 


显示 了 应 用 程序 的 样本 是 如 何 分 布 到 它 的 符号 的 。 这 一 项 使 你 能 看 到 


-1] or 一 -Symbols A a Sp 
哪些 限 数 拥有 最 多 的 样本 


表 4-12 况 明了 该 调用 的 选项 ， 它 们 能 让 你 指定 opannotate 提 供 的 确切 信息 。 这 里 有 一 个 忠告 : 由 于 处 理 器 硬件 计数 器 在 源 
代码 行 和 指令 级 上 的 限制 ， 样 本 可 能 不 会 准确 对 应 到 引 友 它 的 那 一 行 。 不 过 ， 它 们 会 很 接近 实际 的 事件 。 


表 4-12 ”opannotate 命 令 行 选项 


选 项 说 明 
-s or --source 一- 在 应 用 程序 源 代 码 的 劳 边 显示 已 收集 样本 
-a or --assembly 在 应 用 程序 的 汇编 代码 的 劳 边 显示 已 收集 样本 
-s and -a 如 来 同 时 指定 了 -s 和 -a， 那么 opannotate 将 把 样本 与 源 代码 以 及 汇 


| 编 代码 放 一 起 


使 用 opannotate 和 opreport 时 ， 指 明 应 用 程序 的 完整 路 径 名 总 是 最 好 的 做 法 。 如 果 不 这 样 做 ， 你 可 能 会 接收 到 一 条 神秘 的 
错误 信息 (如 果 oprofile 无 法 友 现 应 用 程序 的 样本 ) 。 默 认 情 况 下 ， 在 显示 结果 时 ，opreport 只 显示 可 执行 文件 名 ， 这 会 与 系统 
中 多 个 有 相同 名 称 的 可 执行 文件 或 库 相 混淆 。 因 此 ， 总 是 指定 -f 选 项 就 可 以 让 opreport 显 示 应 用 程序 的 完整 路 径 。 


oprofile 还 可 以 提供 一 个 命令 opgprof 用 于 输出 由 oprofile 收 集 的 样本 ， 其 输出 形式 能 被 gprof 理 解 。 该 命令 的 调用 方式 如 


opgprof application 


设 命 令 获 取 application 的 样本 ， 并 生成 与 gprof 兼 容 的 文件 。 之 后 ， 你 就 可 以 用 gprof 命 令 来 查看 该 文件 了 。 
4.2.7.2 ”用 法 示例 


蛤 于 我 们 已 经 在 2.2.8 证 中 了 解 过 oprofile， 这 里 的 例子 向 你 展示 的 将 是 如 何 利用 oprofile 来 跟踪 源 代码 特定 行 的 性 能 问题 。 
本 人 小玉 假 设 你 已 经 用 opcontrol 命 令 司 动 了 剂 析 。 下 一 步 融 是 运行 有 性 能 问题 的 程序 。 本 例 中 ， 我 们 使 用 的 是 burn 程 序 ， 残 是 企 
gprof 示 例 中 用 过 的 程序 。 我 们 按 如 下 方式 局 动 测 试 程序 : 


[ezolt@wintermute tmp]$ ./burn 
程序 完成 后 ， 我 们 必须 将 oprofile 的 缓冲 区 转 储 到 硬盘 ， 否 则 样本 对 opreport 将 是 不 可 用 的 。 用 如 下 命令 完成 这 一 步 : 


[ezolt@wintermute tmp]$ sudo opcontrol -d 


接着 ， 在 清单 4.12 中 ， 我 们 要 求 opreport 告 诉 我 们 与 测试 程序 /tmp/burn 相 关 的 样本 。 这 能 让 我 们 对 该 应 用 程序 消耗 的 周 
期 数 有 个 总 体 映 像 。 本 例 中 ， 我 们 看 到 应 用 程序 有 9939 个 样本 。 如 果 我 们 深入 oprofile 工 具 ， 我 们 将 了 解 这 些 样本 是 如 何在 
burn 程 序 中 分 布 的 。 


清单 4.12 


[ezolt@wintermute tmp]j$ opreport -f /tmp/burn 
CPU: PIII, Speed 467.731 MHz (estimated) 


Counted CPU CLK UNHALTED events (clocks processor is not halted) with a 
unit mask of 0x00 (No unit mask) count 233865 


9939 100.0000 /tmp/burn 


之 后 ， 在 清单 4.13 中 ， 我 们 想 了 解 所 有 样本 是 属于 burn 程 序 中 的 哪些 水 数 。 由 于 我 们 使 用 了 CPU_CLK_ UNHANLTED 事 
件 ， 这 大 任 对 应 于 每 个 遂 数 所 花费 的 相对 时 | 间 。 通 过 查看 输出 ， 我 们 可 以 看 到 91% 的 时 间 花 在 了 晃 数 a () 上 ，9% 的 时 间 花 在 了 
函数 b () 上 。 


清单 4.13 


[ezolt@wintermute tmp]$ opreport -1 /tmp/burn 
CPU: PIII, speed 467.731 MHz (estimated) 


Counted CPU CLK UNHALTED events (clocks processor is not halted) with a 
Unit mask of 0x00 (No unit mask) count 233865 


vma samples %S symbol name 
08048348 9033 90.9118 a 
0804839e 903 9.0882 b 


在 清单 4.14 中 ， 我 们 要 求 opreport 展 示 哪 些 虚 拟 地 址 有 对 应 的 样本 。 本 例 中 ， 看 上 去 似乎 位 于 地 址 0x0804838a 的 指令 拥有 
759% 的 样本 。 但 是 ， 现 在 还 不 清楚 这 条 指令 是 做 什么 的 ， 或 者 为 什么 有 这 么 多 样本 。 


清单 4.14 


[ezolt@wintermute tmp]$ opreport -d /tmp/burn 
CPU: PIII，Speed 467.731 MHz (estimated) 


Counted CPU CLK UNHALTED events (clocks processor is not halted) with a 
unit mask of QO@x0@8 (No unit mask) count 233865 


vma samples S% symbol name 
08048348 9033 90.9118 a 
08048363 4 0.0443 
08048375 431 4.7714 
0804837c 271 3.0001 
0804837e 1 @.@0111 
08048380 422 4.6718 
0804838a 6786 75 ,1245 
08048393 1114 12 .3326 
08048395 4 0.0443 
0804839e 903 9.0882 b 
080483cb 38 4.2082 
080483d2 19 2.1041 
080483d6 50 5.5371 
080483e60 697 77 .1872 


080483e9 99 10.9635 


通常 ， 对 我 们 更 加 有 用 的 是 知道 使 用 所 有 CPU 时 间 的 源 代码 行 ， 而 不是 使 用 它 的 指令 的 虚拟 地 址 。 找 出 一 条 特定 指令 与 源 
代码 行 之 间 的 对 应 关系 并 不 总 是 容易 的 事 儿 。 因 此 ， 在 清单 4.15 中 ， 我 们 要 求 opannotate 来 做 这 项 困难 的 工作 ， 向 我 们 展示 相 
对 于 原始 源 代码 的 样本 (而 并 非 指令 的 虚拟 地 址 ) 。 


清单 4.15 


[ezolt@wintermute tmp]$ opannotate --source /tmp/burn 
/* 

* Command line: opannotate --source /tmp/burn 

* Interpretation of command line: 

* Output annotated source file with samples 

* Output all files 

宾 

* CPU: PIII, speed 467.731 MHz (estimated ) 


* Counted CPU CLK UNHALTED events (clocks processor is not halted) with 
a unit mask of 0x00 (No unit mask) count 233865 


| 

/* 

* Total samples for file : "/tmp/burn.c" 
* 9936 100.0000 

SF 


:#include <string.h> 
:#define ITER 10000 
:#define SIZE 10000000 


:#define STRIDE 10000 


:Char teSst[SIZE] ; 


‘VoOid a(Vvoid) 
Si OER 9033 90.9118 */ 


int i=0,]=0; 
8 0.0805 ; for (j=0;j<10*ITER ; j++) 
8603 86.5841 : for (i=0;i<SIZE;i=i+STRIDE) 
{ 
422 4.2472 : test[1i]++; 
} 


:VoOid b(void) 
a Tota 903 9.0882 */ 
int I=0,]j=O; 
for (j=0;j<ITER; j++) 
853 8.5849 : for (i=0;1i<SIZE;1i=i+STRIDE) 
{ 
50 0.5032 : test[1i]++; 


:main() 


/* Arbitrary value*/ 
memset (test, 42, SIZE); 
al( ) ; 

b() ; 


正如 你 能 在 清单 4.15 中 看 到 的 一 样 ，opannotate 把 大 部 分 样本 (86.59%) 归 因 于 锐 数 a () 中 的 for 循 环 。 可 惜 的 是 ，for 
循环 中 这 部 分 的 代价 并 不 会 很 高 。 对 现代 处 理 器 来 况 ， 整 数 加 上 固定 数 的 执行 速度 是 非常 快 的 。 因 此 ，oprofile 报 告 的 样本 可 能 
锐 归 于 错误 的 源 代码 行 。 而 下 面 的 代码 行 (test 们 ++; ) 其 代价 则 非常 高 ， 因 为 它 要 访问 内 存 子 系统 。 这 一 行 才 应 该 是 这 些 样 
本 所 对 应 的 。 


有 些 超出 oprofile 控 制 的 原因 会 导致 它 对 样本 的 错误 对 应 。 首 务 ， 处 理 器 并 不 总 是 精确 中 断 于 导致 事件 友 生 的 那 一 行 。 这 可 
能 会 让 样本 被 归于 事件 源头 附近 的 指令 ， 而 不 是 引 友 事件 的 那 条 指令 。 其 次 ， 当 源 代码 被 编译 时 ， 编 译 器 党 弟 为 了 让 执行 更 有 效 
率 而 重 排 指令 。 编 译 器 完成 优化 后 ， 代 码 也 许 就 不 是 按照 其 编写 的 顺序 来 执行 。 不 同 的 源 代码 行 可 能 被 重 排 和 组 合 。 其 结果 束 
是 ,特定 的 指令 也 许 是 多 个 源 代码 行 的 结果 ， 或 者 甚至 于 是 编译 器 生成 的 中 间 代 码 段 ， 而 这 段 中 间 代 码 在 原始 源 代码 中 是 不 存在 
的 。 因 此 ， 当 编译 器 优化 代码 ， 生 成 机 器 指令 上 时， 原始 源 代码 行 与 生成 的 机 器 指令 之 间 可 能 不 再 有 一 对 一 的 映射 天 系 。 这 束 使 得 
让 oprofile (和 调试 器 ) 指出 每 条 机 器 指令 究竟 对 应 哪 一 行 源 代码 变 得 困难 重重 ， 甚 至 于 不 可 能 。 不 过 ，oprofile 还 是 试图 尽 可 
能 的 准确 ， 因 此 ， 通 党 你 可 以 看 看 高 样本 计数 代码 行 的 上 下 几 行 ， 束 可 以 找 出 真正 代价 高 的 那 行 代码 。 如 果 需 要 ， 你 可 以 用 
opannotate 来 显示 确切 的 汇编 指令 ， 以 及 正在 接收 所 有 样本 的 虚拟 地 址 。 这 有 可 能 发现 汇编 指 令 在 做 什么 ， 从 而 手动 将 它 映射 


回 你 的 原始 源 代码 。oprofile 的 样本 归属 并 不 准确 ， 但 它 通常 是 足够 接近 的 。 即 使 存在 这 些 限制 ，oprofile 提 供 的 文件 显示 了 大 
致 的 源 代码 行 以 供 调 查 ， 一 般 说 来 ， 这 就 足够 找 出 应 用 程序 的 速度 慢 在 了 哪里 。 


4.2.8 语言 : 静态 (C 和 C++) vs 动态 (Java 和 Mono) 


大 多 数 Linux 性 能 工具 都 支持 对 静 仿 语言 (如 C 和 C++) 的 分 析 ， 本 章 描述 的 所 有 工具 都 能 运用 于 由 这 些 语言 编写 的 应 用 程 
序 。 工 具 Iltrace，strace 和 time 可 运用 于 由 动态 语言 编写 的 应 用 程序 ， 比 如 Java、Mono、Python 和 Perl。 但 是 剖析 工具 gprof 
和 oprofile 不 能 用 于 这 些 类 型 的 应 用 程序 。 玫 运 的 是 ， 大 多 数 动 态 语 言 提 供 了 并 不 只 针对 Linux 的 剖析 基础 工具 来 生成 相似 类 型 
的 配置 文件 。 


对 Java 应 用 程序 而 言 ， 如 果 运 行 java 命 令 时 带 上 了 -Xrunhprof 命 令 行 选项 ， 那 么 -Xrunhprof 将 对 应 用 程序 进行 剖析 。 更 多 
详细 信息 参见 http://antprof.sourceforge.net/hprof.html。 对 Mono 应 用 程序 而 言 ， 如 果 mono 可 执行 文件 被 传递 了 --profile 
标志 ， 那 么 它 将 剖析 该 应 用 程序 。 更 多 详细 信息 参见 http://www.mono-project.com/docs/advanced/performance-tips/。 
Perl 和 和 Python 也 有 相似 的 剖析 功能 ，Perl 的 Devel: : DProf 的 说 明 见 于 网 
址 http://perl.com/pub/a/2004/06/25/profiling.html， 而 Python 的 profiler 的 营 明 则 见于 新 网 
址 : https://docs.python.org/3/library/index.html。 


4.3” 本草 小 结 


本 草 介 绍 了 怎样 跟 趴 单个 进程 的 CPU 性 能 尊 贷 。 学 会 了 确定 一 个 应 用 程序 消耗 的 时 间 是 如 何 分 配 到 Linux 内 核 、 系 统 库 ， 其 
至 于 该 应 用 程序 本 身 的 。 还 学 会 了 怎样 找 出 哪些 调用 是 对 内 核 的 ， 哪 些 是 对 系统 库 的 ， 以 及 完成 它们 分 别 伦 了 多 少时 间 。 最 后 ， 
学 习 了 如 何 齐 析 应 用 程序 ， 确 定 源 代码 的 哪个 特定 行 消耗 了 大 量 的 时 间 。 擎 握 了 这 些 工具 之 后 ， 融 可 以 局 动 独占 CPU 的 应 用 程 
序 ， 并 利用 这 些 工具 准确 地 找 出 消耗 了 所 有 时 间 的 那些 印 数 。 


后 续 章 节 将 研究 如 何 友 现 那些 不 受 CPU 约 束 的 瓶 宽 。 特 别 是 将 学 习 到 用 于 友 现 诸如 饱和 磁盘 或 超载 网 络 的 MO 瓶颈 的 工具 。 


第 5 和 草 ” 性 能 工具 : 特定 进程 内 存 


本 章 介 绍 的 工具 使 你 能 诊断 应 用 程序 与 内 存 子 系统 之 间 的 交互 ， 该 子 系统 由 Linux 内 核 和 CPU 管 理 。 由 于 内 存 子 系统 的 不 同 
层次 在 性 能 上 有 数量 级 的 差异 ， 因 此 ， 修 复 应 用 程序 使 其 有 效 地 使 用 内 存 子 系统 会 对 程序 性 能 产生 巨大 的 影响 。 


阅读 本 章 后 ， 你 将 能 够 : 
` 确定 一 个 应 用 程序 使 用 了 多 少 内 存 (ps,，/proc) 。 


-确定 应 用 程序 的 哪些 函数 分 配 内 存 (memprof) 。 


“ 用 软件 模拟 (kcachegrind，cachegrind) 和 硬件 性 能 计数 器 (oprofile) 分 析 应 用 程序 的 内 存 使 用 情况 。 


` 确定 哪些 进程 创建 和 使 用 了 共享 内 存 (ipcs) 。 


5.1 Linux 内 存 子 系统 


在 诊断 内 存 性 能 问题 的 时 候 ， 也 许 有 必要 观察 应 用 程序 在 内 存 子 系统 的 不 同 层 次 上 是 怎样 执行 的 。 在 顶层 ,操作 系统 决定 如 
何 利 用 交换 内 存 和 物理 内 存 。 它 决定 应 用 程序 的 哪 一 块 地 址 空间 将 被 放 到 物理 内 存 中 ， 即 所 谓 的 驻 留 集 。 不 属于 驻 留 集 却 又 被 应 
用 程序 使 用 的 其 他 内 存 将 被 交换 到 磁盘 。 由 应 用 程序 决定 要 向 操作 系统 请 求 多 少 内 存 ， 即 所 谓 的 虚拟 集 。 应 用 程序 可 以 通过 调用 
malloc 进 行 显 式 分 配 ， 也 可 以 通过 使 用 大 量 的 堆栈 或 库 进 行 隐 式 分 配 。 应 用 程序 还 可 以 分 配 被 其 目 身 或 其 他 应 用 程序 使 用 的 共 
享 内 存 。 性 能 工具 ps 用 于 跟踪 虚拟 集 和 驻 留 集 的 大 小 。 性 能 工具 memprof 用 于 跟 蹊 应 用 程序 的 哪 段 代 码 是 分 配 内 人 存 的 。 工 具 
ipcs 用 于 跟踪 共享 内 存 的 使 用 情况 。 


当 应 用 程序 使 用 物理 内 存 时 ， 它 首先 与 CPU 的 高 速 组 存 子 系统 交互 。 现 代 CPU 有 多 级 高 速 缀 分。 最 快 的 高 速 组 存 离 CPU 最 
近 (也 称 为 L1 或 一 级 高 速 缓存 ) ， 其 容量 也 最 小 。 举 个 例子 ,假设 CPU 只 有 两 级 高 速 缓存 : L1 和 L2。 当 CPU 请 求 一 块 内 存 时 ， 
处 理 器 会 检查 看 该 块 内 存 是 否 已 经 存在 于 L1 高 速 缓存 中 。 如 果 处 于 ，CPU 束 可 以 使 用 。 如 果 不 在 L1 高 速 缓 存 中 ， 处 理 器 产生 一 
个 L1 高 速 缓存 不 命中 。 然 后 它 会 检查 L2 高 速 缀 分， 如 果 数 据 在 L2 高 速 组 存 中 ， 那 么 它 可 以 使 用 。 如 果 数 据 不 在 L2 高 速 缓存 ， 将 
产生 一 个 L2 高 速 绥 存 不 命中 ， 人 处理 器 束 必 须 到 物理 内 存 去 取 回 信息 。 最 终 ， 如 果 人 处理 器 从 不 访问 物理 内 存 (因为 它 会 在 L1 或 者 
甚至 L2 高 速 缓存 中 上 友 现 数据 ) 将 是 最 佳 情 况 。 明 智 地 使 用 高 速 缓存 ， 例 如 重新 排列 应 用 程序 的 数据 结构 以 及 减少 代码 量 等 方 
法 ， 有 可 能 减少 高 速 缓 仔 不 命中 的 次 数 并 提高 性 能 。cachegrind 和 oprofile 是 很 好 的 工具 ， 用 于 上 友 现 应 用 程序 对 高 速 缓 仔 的 使 用 
情况 的 信息 ， 以 及 哪些 函数 和 数据 结构 导致 了 高 速 缓存 不 命中 。 


本 节 讨 论 各 种 内 存 性 能 工具 ， 它 们 使 你 能 检查 一 个 给 定 的 应 用 程序 是 如 何 使 用 内 存 子 系统 的 ， 包 括 进程 使 用 的 内 存 忌 量 和 不 
同 的 内 存 类 型 ， 内 存 是 在 哪里 分 配 的 ， 以 及 进程 是 如 何 有 效 使 用 处 理 器 的 高 速 组 存 的 。 


5.2.1 ps (ll) 

对 跟 路 进程 的 动态 内 存 使 用 情况 而 言 ，ps 是 一 个 极 好 的 命令 。 除 了 已 经 介绍 过 的 CPU 统 计数 据 ，ps 还 能 提供 天 于 应 用 程序 
使 用 内 人 存 的 总 量 以 及 内 存 使 用 情况 对 系统 影响 的 详细 信息 。 

5.2.1.1 内存 性 能 相关 的 选项 


ps 有 许多 不 同 的 选项 ， 可 以 获取 一 个 正在 运行 的 应 用 程序 各 种 各 样 的 状态 统计 信息 。 如 同 你 在 前 面 草 节 里 看 到 的 ，ps 能 够 
检索 到 一 个 进程 消 冰 CPU 的 情况 ， 但 它 同 时 也 可 以 检索 到 进程 使 用 内 存 的 容量 和 类 型 信息 。ps 可 以 用 如 下 命令 行 调 用 : 


ps [-0 VSz,rssitsiz,dsiz,majflt,minf1lt,pmem,command] <PID> 
表 5-1 解 释 了 给 定 PID 情 况 下 ，ps 显 示 的 不 同类 型 的 内 存 统计 信息 。 
如 前 所 述 ， 在 如 何 选 择 统计 数据 要 显示 哪些 PID 时 ，ps 是 很 灵活 的 。ps-help 提 供 了 信息 以 说 明 如 何 指定 不 同 的 PID 组 。 
表 5-1 ps 命令 行 选项 
选 ”项 ] 说 明 
允许 你 指定 想 要 跟 蹊 的 确定 的 进程 统计 信息 。 不 同 的 统计 数据 由 列表 给 出 ， 列 表 项 


用 逗号 隔 开 ， 且 中 间 没 有 空格 
统计 数据 : 虚拟 集 大 小 是 指 应 用 程序 使 用 的 虚拟 内 存 的 容量 。 由 于 Linux 只 在 应 用 


-0 <statistic> 


VSZ 程序 试图 使 用 物理 内 存 时 才 分 配 它 ， 因此 ， 该 项 数值 可 能 会 比 应 用 各 序 使 用 的 物理 内 
| 存量 大 很 多 
rss | 统计 数据 : 驻 留 集 大 小 是 指 应 用 程序 当前 使 用 的 物理 内 存量 


统计 数据 : 文本 大 小 是 指 程序 代码 的 虚拟 大 小 。 再 强调 一 次 ， 这 不 是 实际 大 小 ， 而 
是 虚拟 大 小 ; 但 是 ， 该 项 数值 清晰 地 表明 了 程序 的 大 小 

统计 数据 : 数据 大 小 是 指 程序 数据 使 用 量 的 虚拟 大 小 。 该 项 数值 清晰 地 表明 了 应 用 
| 程序 的 数据 续 构 和 堆栈 的 大 小 

| 统计 数据 主 故 障 是 指使 得 Linux 代表 进程 从 磁盘 读 取 页 面 的 缺 页 故障 的 数量 。 这 
majflt 种 故障 可 能 发 生 的 倩 况 是 : 当 进 程 访问 的 一 块 数据 或 指令 仍 留 在 磁盘 上 时 ，Linux 要 
] 为 应 用 程序 进行 无 颖 加 载 

| 统计 数据 : 次 故障 是 指 Linux 不 用 诉 诸 磁盘 读 取 就 可 以 解决 的 故障 数量 。 如 果 应 用 


tsiz 


dsiz 


minfl1t ] A 经 由 Linux 内 核 分 配 的 内 存 ， 就 有 可 能 发 生 这 种 情况 。 这 种 情况 不 需 
| 要 访问 磁盘 ， 因 为 内 核 只 需 选 择 一 块 空 几 内 存 并 将 其 分 配给 应 用 程序 即 可 

pmep ] 统计 数据 ， 进程 消耗 的 系统 内 存 白 分 比 

command | ”统计 数据 : 命令 名 


3 212 用 ) 汉 示例 
清单 5.1 展 示 了 在 系统 上 运行 的 测试 应 用 程序 burn。 我 们 要 求 ps 给 出 进程 的 内 存 统计 信息 。 


清单 2.1 


[ezolt@wintermute tmp]$ ps -0 vsz,rss,tsiz,dsiz,majflt,minflt,cmd 10882 
VSZ RSS TSIZ DSIZ MAJFLT MINFLT CMD 
11124 10004 1 11122 66 2465 ./burn 


如 清单 5.1 所 示 ， 应 用 程序 burn 的 文本 大 小 很 小 (1KB) ， 但 是 其 数据 大 小 却 很 大 (11122KB) 。 相 对 总 的 虚拟 大 小 
(11124KB) 来 说 ， 进 程 的 驻 留 集 略 小 一 点 (10004KB) ， 驻 留 集 表 示 的 是 进程 实际 使 用 的 物理 内 和 存 总 量 。 此 外 ，burn 产 生 的 
大 多 数 故 障 都 是 次 故障 ， 所 以 ， 多 数 内 存 故 障 是 由 内 存 分 配 导 致 的 ， 而 不 是 由 从 磁盘 的 程序 映像 加 载 大 量 的 文本 或 数据 导致 的 。 


52.2.2 /proc/<PID> 


Linux 内 核 提 供 了 一 个 虚拟 文件 系统 ， 使 你 能 提取 在 系统 上 运行 的 进程 的 信息 。 由 / ee 
之 类 的 性 能 工具 用 于 从 内 核 提取 性 能 数据 。 尽 管 一 般 不 需要 深入 挖掘 /proc 中 的 文件 ， 但 是 它 确实 能 提供 其 他 性 能 工具 所 无 法 检 


索 到 的 一 些 信息 。 除 了 许多 其 他 统计 数据 之 外 ，/proc 还 提供 了 进程 的 内 存 使 用 信息 和 库 映 射 信息 。 
5.2.2.1 ”内 存 性 能 相关 的 选项 


/proc 的 接口 很 简单 。/proc 提 供 了 许多 虚拟 文件 ， 可 以 用 cat 来 提取 它们 的 信息 。 系 统 中 每 一 个 运行 的 PID 在 /proc 下 都 有 一 
个 子 目 录 ， 这 个 子 目 录 含 有 一 系列 文件 ， 其 中 包含 的 是 关于 该 PID 的 信息 。 这 些 文件 中 ，status 给 出 的 是 给 定 进 程 PID 的 状态 信 


息 ， 其 检索 命令 如 下 : 


cat /proc/<PID>/status 


表 5-2 对 status 文 件 显示 的 内 存 统计 信息 进行 了 解释 。 


表 5-2 /ptoc/<PID>/status 字段 说 明 


选项 说 明 
进程 的 虚拟 集 大 小 ， 是 应 用 程序 使 用 的 虚拟 内 存量 。 由 于 Linux 只 在 应 用 程序 试图 使 用 物理 
vmsize ”| 内 存 时 才 进 行 分 配 ， 因 此 ， 这 个 数字 可 能 会 比 应 用 程序 实际 使 用 的 物理 内 存 容量 大 很 多 。 该 项 
与 ps 提供 的 vsz 参数 相同 
VmLck 被 进程 锁定 的 内 存量 。 被 锁定 的 内 存 不 能 交换 到 磁盘 


VmRSS 驻 留 集 大 小 或 应 用 程序 当前 使 用 的 物理 内 存量 。 它 与 ps 提供 的 rss 统计 数据 相同 
VmData 数据 大 小 或 程序 使 用 数据 量 的 虚拟 大 小 。 与 ps 的 dsiz 统计 数据 不 同 ， 该 项 不 包含 堆栈 信息 


vmStk 进程 的 堆栈 的 大 小 
VmExe 程序 的 可 执行 内 存 的 虚拟 大 小 。 它 不 包含 进程 使 用 的 库 
VmLib 进程 使 用 的 库 的 大 小 


<PID> 目 录 下 的 另 一 个 文件 是 maps， 它 提供 了 关于 如 何 使 用 进程 虚拟 地 址 空间 的 信息 。 其 检索 命令 如 下 所 示 : 
cat /proc/<PID>/maps 
表 5-3 解 释 了 maps 文 件 中 的 字段 。 


表 5-3 /ptoc/ <PID> /maps 字段 说 明 


选 项 说 明 
Address | 进程 中 库 映 射 的 地 址 范围 
Permissions 内 存 区 域 的 权限 ， 其 中 ; r= 读 , w= 写 ，x= 执行 ，s= 共 理 ，p= 私有 ( 写 时 复制 ) 
Offset 库 / 应 用 程序 内 存 映射 区 域 开 始 处 的 侦 移 量 
Device 这 个 特殊 文件 所 在 的 设备 ( 主 设备 号 和 次 设备 号 ) 
Inode 映射 文件 的 节点 号 
Pathname | ”映射 到 进程 的 文件 的 路 径 名 


/proc 提 供 的 信息 可 以 帮助 你 了 解 应 用 程序 是 如 何 分 配 内 存 的 ， 以 及 它 使 用 了 哪些 库 。 
5.2.2.2 ”用 法 示例 


清单 5.2 显 示 的 是 运行 于 系统 上 的 burn 测 试 程序 。 首 先 ， 我 们 用 ps 找到 burn 的 PID (4540) 。 然 后 ， 用 /proc 的 status 文 件 
抽取 进程 的 内 存 统计 信息 。 


清单 5.2 


[ezolt@wintermute tmp]$ ps aux | grep burn 
ezolt 4540 0.4 2.6 11124 10004 pts/0 T 08:26 0:00 . /burn 
ezolt 4563 0.0 0.1 1624 464 pts/0 S 08:29 0:00 grep burn 


[ezolt@wintermute tmp]$ cat /proc/4540/status 


Name : burn 

State: TT (stopped) 

told: 4540 

Pid: 4540 

PPLg 1514 

TracerPid : 0 

Uid: 501 501 501 501 
Gid: 501 501 501 501 
FDSize: 256 

GroupS: 501 9 502 

VmSize: 11124 kB 

VmLck : 0 kB 

VmRSsS : 10004 kB 

vmData: 9776 kB 

VmStk: 8 kB 

VmExe: 4 kB 

VmLib : 1312 kB 


SigPnd: 0000000000000000 
ShdPnd: 0000000000000000 
SigBlk: 0000000000000000 
SigIgn: 0000000000000000 
SigCcgt: 0000000000000000 
CapInh: 0000000000000000 
CapPrm: 0000000000000000 
CapEff: 0000000000000000 


如 清单 2.2 所 示 ， 我 们 再 一 次 看 到 应 用 程序 burn 的 文本 大 小 (4KB) 和 扒 枝 大 小 (8KB) 很 小 ， 而 数据 大 小 (9776KB) 很 
大 ， 库 大 小 (1312KB) 较 合 理 。 小 的 文本 大 小 意味 着 进程 没有 大 多 的 可 执行 代码 ， 而 适中 的 库 大 小 表示 它 使 用 库 来 支持 其 执 
行 。 小 的 堆栈 大 小 意味 着 该 进程 没有 调用 深度 坐 套 的 函数 ， 或 者 没有 调用 使 用 了 大 型 或 多 个 临时 变量 的 函数 。VmLck 的 大 小 为 
0KB 说 明 进 程 没有 锁定 内 存 中 的 任何 页 面 ， 使 得 它们 无 法 交换 。VmRSS 大 小 为 10004KB 意 味 着 应 用 程序 当前 使 用 了 10004KB 的 
物理 内 存 ， 不 过 它 分 配 或 映射 的 大 小 为 YmSize 或 11124KB。 如 果 应 用 程序 开始 使 用 之 前 已 分 配 但 并 非 正在 使 用 的 内 存 ， 那 么 
VmRSS 会 增加 ， 而 VmSize 会 保持 不 变 。 


如 前 所 述 ， 应 用 程序 的 VmLib 的 大 小 为 非 零 值 ， 因 此 程序 使 用 了 库 。 在 清单 5.3 中 ， 我 们 查看 进程 的 maps 来 了 解 它 使 用 的 那 
些 库 。 


清单 5.3 


[ezolt@wintermute test app]$ cat /proc/4540/maps 

08048000-08049000 r-xp 00000000 21:03 393730 /tmp/burn 
08049000-0804a000 rw-p 00000000 21:03 393730 /tmp/burn 
0804a000-089d3000 rwxp 00000000 00:00 0 

40000000-40015000 r-xp 00000000 21:03 1147263 /1ib/ld-.2.3.2.80 
40015000-40016000 rw-p 00015000 21:03 1147263 /lib/ld-2.3.2.s0 
40028000-4002f000 rw-p 00000000 00:00 0 

4002f000-40162000 r-xp 00000000 21:03 2031811 PILOTISL LIDG 2,9. 80 
40162000.40166000 rw-p 00132000 21:03 2031811 /lib/tls/libc-2.3.2.s0 
40166000-40168000 rw-p 00000000 00:00 0 

bfffe000-c0000000 rwxp fffff000 00:00 0 


就 像 你 在 清单 5.3 看 到 的 ， 应 用 程序 burn 使 用 了 两 个 库 : ld 和 libc。libc 文 本 部 分 (由 权限 r-xp 表示 ) 的 范围 从 0x4002f0000 
到 0x40162000， 即 大 小 为 0x133000 或 1257472 字 节 。 


libc 数 据 部 分 (由 权限 rw-p 表 示 ) 的 范围 从 40162000 到 40166000， 即 大 小 为 0x4000 或 16384 字 节 。libc 的 文本 部 分 大 于 Id 
的 文本 部 分 ， 后 者 的 大 小 为 0x15000 或 86016 字 节 。libc 的 数据 部 分 也 大 于 ld 的 数据 部 分 ， 后 者 的 大 小 为 0x1000 或 4096 字 节 。 
libc 是 burn 链 接 的 大 库 。 


/proc 被 证 明 是 从 内 核 直 接 提取 性 能 统计 信息 的 有 效 途 径 。 由 于 统计 信息 是 基于 文本 的 ， 因 此 可 以 使 用 标准 的 Linux 工 具 来 
访问 它们 。 


5.2.3 memprof 


memprof 是 一 种 图 形 化 的 内 存 使 用 情况 剖析 工具 。 它 展示 了 程序 在 运行 时 是 如 何 分 配 内 存 的 。memprof 显 示 了 应 用 程序 消 
耗 的 内 存 思 量 ， 以 及 哪些 消 数 应 对 这 些 内 存 使 用 量 负 责 。 此 外 ，memprof 还 可 以 显示 哪些 代码 路 径 要 对 内 存 使 用 量 负责 。 比 
如 ， 如 果 函 数 foo () 不 分 配 内 存 ， 但 是 调用 函数 bar () 要 分 配 大 量 的 内 存 ， 那 么 memprof 就 会 向 你 显示 foo () 自身 使 用 的 
内 存量 以 及 foo () 调用 的 全 部 函数 。 应 用 程序 运行 时 ，memprof 会 动态 更 新 这 些 信 息 。 


5.2.3.1 内存 性 能 相关 的 选项 
memprof 是 一 个 图 形 化 的 应 用 程序 ， 但 是 也 有 一 些 命令 行 选项 来 调整 其 执行 。memprof 用 如 下 命令 调用 : 
memprof [--follow-fork] [--follow-exec] application 
memprof 训 析 给 定 的 “application”， 并 为 其 内 存 使 用 情况 创建 一 个 图 形 化 输出 。 虽 然 memprof 可 以 在 任何 应 用 程序 上 
运行 ， 但 是 如 果 它 依赖 的 应 用 程序 和 库 使 用 调试 符号 编译 ， 那 么 它 束 能 提供 更 多 的 信息 。 


表 5-4 襄 明了 控制 nemprof 行 为 的 选项 ， 条 件 是 memprof 监 控 的 应 用 程序 调用 了 fork 或 exec。 这 通 弟 皮 生 在 应 用 程序 局 动 


一 个 新 进程 或 执行 一 条 新 命令 的 时 候 。 


表 5-4 memprof 命 令 行 选项 


选 项 说 明 
——fol1]1ow-—fork 使 得 memprof 为 新 fork 进程 启动 一 个 新 窗口 


——follow-exec 在 应 用 程序 调用 exec 后 ， 使 得 memprof 继续 剖析 这 个 程序 


一 旦 被 调用 ，memprof 会 创建 一 个 市 有 一 系列 菜单 和 选项 的 窗口 ， 使 你 能 选择 要 齐 析 的 应 用 程序 。 
5.2.3.2 ”用 法 示例 


假设 我 有 如 清单 5.4 所 示 的 示例 代码 ， 并 且 我 想 要 剖析 这 段 代 码 。 在 这 个 称 为 nemory eater 的 应 用 程序 中 ， 遂 数 foo () 不 
分 配 内 分， 但 是 它 调 用 的 函数 bar () 却 要 分 配 内 存 。 


清单 5.4 


#include <stdlib.h> 
void bar{void) 
{ 

malloc(10000 ) ; 


void foo(void ) 
{ 
寺中 全 江 
for (1I=0; i<100;i++) 
bar( ) ; 


int main() 
{ 
foo( ) ; 
while(1); 


用 -g3 标 志 编 译 该 应 用 程序 后 (这 样 应 用 程序 就 包含 了 符号 ) ， 我 们 使 用 memprof 来 剖析 该 应 用 程序 : 


[ezolt@localhost example]$ memprof ./memory eater memintercept (3965): 
_MEMPROF_SOCKET = /tmp/memprof ,Bm1AKU memintercept (3965): New process, 
operation = NEW, old pid = 0 


memprof 创 建 如 图 5-1 所 示 的 应 用 程序 窗口 。 如 同 你 看 到 的 ， 它 不 仅 给 出 了 应 用 程序 memory_eater 的 内 存 使 用 情况 ， 还 显 
示 了 一 系列 的 按钮 和 菜单 使 你 能 对 分 析 进 行 控制 。 


如 果 你 点 击 Profile 按 钮 ，memprof 会 显示 对 应 用 程序 的 内 存 分 析 。 图 5-2 中 的 第 一 个 信息 框 显示 的 是 每 个 消 数 消耗 的 内 存 
量 (用 “Self” 表示) ， 以 及 该 函数 及 其 子 函数 消耗 的 内 存 忆 量 (用 “Total” 表 示 ) 。 和 预期 的 一 样 ， 了 水 数 foo () 不 分 配 任 何 
内 存 ， 因 此 它 的 Self 值 为 0， 但 它 的 Total 值 为 100000， 这 是 因为 它 调用 的 函数 要 分 配 内 人 存 。 


当 你 点 击 上 面 信息 框 中 不 同 的 立 数 时 ，Children 和 Callers 信 息 框 会 友 生 变化 。 这 样 你 就 可 以 看 到 应 用 程序 的 哪些 消 数 在 使 
用 内 存 。 


memprof 提 供 了 一 种 以 图 形 万 式 毅 历 大 量 的 关于 内 存 分 配 数据 的 途径 。 它 给 出 了 一 种 入 单 的 万 法 来 确定 给 定 消 数 及 其 调用 
的 函数 的 内 存 分 配 情 ; 


Memprof - jmemory. Paler (3965) - Running - 
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5.2.4 valgrind (cachegrind) 


valgrind 是 一 个 强大 的 工具 ， 使 你 能 调试 棘手 的 内 存 管理 错误 。 虽 然 valgrind 主 要 是 一 个 开 上 友 者 工具 ， 但 它 也 有 一 个 “ 界 
面 ”能 显示 处 理 器 的 高 速 缓存 使 用 情况 。valgrind 模 拟 当 前 的 处 理 器 ， 并 在 这 个 虚拟 处 理 器 上 运行 应 用 程序 ， 同 时 跟 路 内存 使 用 
情况 。 它 还 能 模拟 处 理 器 高 速 缓存 ， 并 确定 程序 在 哪里 有 指令 和 数据 高 速 缓 存 的 命中 或 缺失 。 


时 然 valgrind 很 有 用 ， 但 是 它 的 高 速 缓存 统计 信息 却 是 不 准确 的 (因为 valgrind 只 是 处 理 器 的 模拟 ， 而 不 是 一 个 真实 的 硬 
件 ) 。valgrind 不 计算 通常 由 对 Linux 内 核 的 系统 调用 导致 的 高 速 缓存 缺失 ， 也 不 计算 由 于 上 下 文 切 换 而 上 友 生 的 高 速 缓存 缺失 。 
此 外 ，valgrind 运 行 应 用 程序 的 速度 比 本 机 执行 程序 的 速度 慢 得 多 。 但 是 ，valgrind 提 供 了 与 应 用 程序 高 速 缓存 使 用 情况 最 接近 
的 数据 。valgrind 可 以 运行 于 任何 可 执行 文件 。 如 果 程 序 已 经 用 符号 编译 过 了 (在 编译 时 把 -g3 传 递 给 gcc) ， 它 还 是 能 够 准确 
地 找 出 要 对 高 速 缓存 的 使 用 情况 负责 的 代码 行 。 


5.2.4.1 ”内 存 性 能 相关 的 选项 


当 使 用 valgrind 分 析 一 个 特定 应 用 程序 的 高 速 缓存 使 用 情况 时 ， 要 经 历 两 个 阶段 : 收集 和 注释 。 收 集 阶段 从 如 下 命令 行 开 


valgrind --skin=cachegrind application 


valgrind 是 一 个 灵活 的 工具 ， 它 有 几 种 不 同 的 “界面 ”使 其 可 以 执行 不 同类 型 的 分 析 。 在 收集 阶段 ，valgrind 用 cachegrind 
界面 来 收集 关于 高 速 缓存 使 用 情况 的 信息 。 上 述 命令 行 中 的 application 表 示 的 是 要 剖析 的 应 用 程序 。 收 集 阶段 在 屏幕 上 显示 的 
是 概要 信息 ， 但 它 同 时 也 在 名 为 cachegrind.out.pid 的 文件 中 保存 了 更 加 详细 的 统计 数据 ， 文 件 名 中 的 pid 是 其 运行 时 被 剖析 应 
用 程序 的 PID。 当 收集 阶段 完成 后 ， 使 用 命令 cg_annotate 把 高 速 缓存 使 用 情况 映射 回应 用 程序 源 代 码 。cg_annotate 调 用 方式 
如 下 : 


cg_annotate --pid [--auto=yeslno] 


cg_annotate 获 取 valgrind 生 成 的 信息 ， 并 用 它 来 注释 被 剖析 的 应 用 程序 。 选 项 --pid 是 必须 的 ， 因 为 pid 是 你 有 兴趣 进行 剖 
析 的 对 象 的 PID。 默 认 情 况 下 ，cg_annotate 只 显示 消 数 级 的 高 速 缓存 使 用 情况 。 如 果 你 的 设置 为 --auto=yes， 那 么 就 会 在 源 代 
码 级 显示 高 速 缓存 的 使 用 情况 。 


5.2.4.2 ”用 法 示例 


本 例 展示 了 在 一 个 简单 应 用 程序 上 运行 的 valgrind (v2.0) 。 该 应 用 程序 清除 一 大 块 内 人 存 区 域 ， 然 后 调用 两 个 阔 数 : a () 
和 b () ， 这 两 个 消 数 都 要 访问 这 个 内 存 区 域 。 消 数 a () 访问 内 存 的 次 数 是 函数 b () 访问 次 数 的 10 倍 。 


首先 ， 如 清单 5.5 所 示 ， 我 们 用 cachegrind 界 面 在 应 用 程序 上 运行 valgrind。 
清单 5.5 


[ezolt@wintermute test app]$ valgrind --skin=cachegrind . /buyrn 
==25571== Cachegrind, an I1/D1/L2 cache profiler for x86-1inux. 
==25571== Copyright (C) 2002-2003, and GNU GPL'd, by Nicholas Nethercote. 


==25571== Using valgrind-2.0.0, a program supervision framework for x86-1inux， 
==25571== Copyright (C) 2000-2003, and GNU GPL'd, by Julian Seward. 
==25571== Estimated CPU clock rate is 468 MHz 


==25571== For more details, reruyn with: -v 


==25571== 
==25571== 

==25571== I refs: 11,317,111 

==25571== I1 misses: 215 

==25571== L2i misses: 214 

==25571== I1 miss rate: 0.0% 

==25571== L21 miss rate : 0 . 0% 

==25571== 

==25571== D refs: 6,908,012 (4,405,958 rd + 2,502,054 wr) 
==25571== D1 misses: 1,412,821 (1,100,287 rd + 312,534 wr) 
==25571== L2d misses: 313,810 ( 1,276 rd + 312,534 wr) 
==25571== D1 miss rate: 20.4% ( 24.9% + 12.4% ) 
==25571== L2d miss rate: 4.5% ( 0.0% + 12.4% ) 
==25571== 

==25571== L2 refs: 1,413,036 (1,100,502 rd + 312,534 wr) 
==25571== L2 misses: 314,024 ( 1,490 rd + 312,534 wr) 
==25571== L2 miss rate: 1.7% ( 0.0% + 12.4% ) 


在 清单 5.5 的 运行 中 ， 应 用 程序 执行 了 11317111 条 指令 ; 该 项 显示 在 | refs 统 计数 据 中 。 进 程 在 L1 (215) 和 L2 (214) 指令 
高 速 缓存 中 的 缺失 次 数 低 得 令 人 吃惊 ， 由 11 和 L2i miss rate 的 0.0% 表 示 。 进 程 的 数据 引用 总 次 数 为 6908012， 其 中 ，4405958 次 
为 读 ，2502054 次 为 写 。24.9% 的 读 和 12.4% 的 写 无 法 由 L1 高 速 缓存 满足 。 幸 运 的 是 ， 我 们 几乎 总 是 可 以 在 L2 数 据 高 速 缓存 中 满 
足 读 操作 ， 因 此 ， 它 们 显示 的 缺失 率 为 0%。 写 操作 仍然 是 个 问题 ， 其 缺失 率 为 12.4%。 在 这 个 应 用 程序 中 ， 数 据 的 内 存 访问 是 
需要 调查 的 问题 。 


理想 的 应 用 程序 应 该 有 非常 低 的 指令 高 速 缓存 和 数据 高 速 缓存 缺失 率 。 要 消除 指令 高 速 缓存 缺失 ， 可 能 需要 用 不 同 的 编译 器 
选项 重新 编译 应 用 程序 ， 或 者 裁剪 代码 ， 这 样 热 代码 就 不 需要 与 不 常用 的 代码 一 起 共享 icache 空 间 了 。 要 消除 数据 高 速 组 存折 
失 ， 使 用 数组 而 非 链表 作为 数据 结构 ， 如 果 可 能 的 话 ， 降 低 数据 结构 中 元 素 的 大 小 ， 并 用 高 速 缓存 友好 的 方式 来 访问 内 存 。 在 任 
何 情况 下 ，valgrind 有 助 于 指出 哪个 访问 /数据 结构 需要 进行 优化 。 该 应 用 程序 运行 的 汇总 信息 表明 数据 访问 是 主要 问题 。 


如 清单 .5 所 示 ， 这 条 命令 显示 了 整体 运行 的 高 速 缓 仔 的 使 用 情况 统计 信息 。 但 是 ， 对 开 上 友 应 用 程序 ， 或 调查 性 能 问题 而 
言 ， 更 为 有 趣 的 是 查看 高 速 缓 仓 缺失 祥生 的 位 置 ， 而 不 是 仅 仪 了 解 在 应 用 程序 运行 期 间 出 现 的 缺失 总 数 。 要 确定 由 哪个 国 数 为 高 
速 缓存 缺失 负责 ， 我 们 运行 Cg_annoate， 如 清单 3.6 所 示 。 它 向 我 们 展示 了 哪个 消 数 要 为 哪个 高速 缓存 缺失 负责 。 和 我 们 预想 的 
一 样 ， 尔 数 a () 的 缺失 次 数 (1000000) 是 函数 b () (100000) 的 10 倍 。 


清单 5.6 


[ezoltewintermute test app]$ cg_annotate --25571 


人 


I1 cache: 16384 B, 32 B, 4-way associative 

D1 cache: 16384 B, 32 B, 4-way associative 

L2 cache: 131072 B, 32 B, 4-way associative 
Command : , /burn 


Events recorded: Ir IImr I2mr Dr Dimr Demr Dw D1mw D2mw 
Events shown: IF Iimr I2mr Dr Dimr D2mr Dw Dimw D2mw 
Event sort order: Ir Iimr Iemr Dr Dimr D2mr Dw Dimw D2mw 
Thresholds: 9900000000 

Include dirs: 

User annotated: 


Auto-annotation: off 


"smn -ss 


IF Iimr I2mr Dr Dimr D2mr Dw D1mw D2mw 


11,317,111 215 214 4,405,958 1,100,287 1,276 2,502,054 312,534 312,534 PROGRAM TOTALS 


Ir I1mr I2mr Dr Dimr D2mr Dw D1mw D2mw file:function 
8,009,011 2 2 4,003,003 1,000,000 989 1,004 0 0 burn.c:a 
2,500,019 3 3 6 1 1 2,500,001 312,500 312,500 ???: GI memset 

800,911 2 2 400 ,303 100 ,000 0 104 0 0 burn.c:b 


虽然 按 日 个 冰 数 来 分 解 高 速 组 存 缺 失 是 有 用 的 ， 但 是 查看 应 用 程序 的 哪些 行 导致 了 高 速 缓存 缺失 也 是 很 有 趣 的 。 如 果 我 们 如 
清单 .7 那样 使 用 --auto 选 项 ，cg_annotate 残 会 准确 地 告诉 我 们 每 个 缺失 都 要 由 哪 一 行 负责 。 


清单 5.7 


[ezolt@wintermute test app]$ cg_annotate --25571 --auto=yes 


I1 cache: 16384 B, 32 B, 4-way associative 
D1 cache: 16384 B, 32 B, 4-way associative 
L2 cache: 131072 B, 32 B, 4-way associative 
Command: . /burn 


Events recorded: Ir Iimr I2mr Dr Dimr D2mr Dw Dimw D2mw 
Events shown: IF Iimr Iemr Dr Dimr D2mr Dw Dimw D2mw 
Event sort order: IF Iimr I2mr Dr Dimr D2mr Dw Dimw D2mw 
Thresholds: 99 .0000000000 

Include dirs: 

User annotated: 


Auto-annotation: on 


二 站 


lr 二 1 用 广 laMr Ur UM UaeMmMr LAW D1 MW Lam 


和 


11,317,111 215 214 4,405,958 1,100,287 1,276 2,502,054 312,534 312,534 PROGRAM TOTALS 


和 


IF Iimr I2mr Dr Dimr D2mr Dw Dimw D2mw file:function 
8 ,009 ,011 2 2 4,003,003 1,000,000 989 1,004 @ @ burn.c:a 
2,500,819 号 3 6 1 1 2,5008,001 312,500 312,500 ?77?; GI memset 
8008 ,911 2 2 400,303 -160,060 @ 1@4 @ @ burn.c:b 


Ed 


-- AUto-annotated source: burn.c 


和 


Ir Iimr I2mr Dr Dimr D2mr Dw Dimwy D2mw 


, ， , 有 i . #define ITER 168©@ 
。 。 . #define Sz 10000000 


， ， #define STRI 1608080 


， Char 七 BSt[SZ] 


， Void a(volid) 
3 0 @ i . 1 由 @ 1 
2 0 0 , 。 2 和 @ int 1=0,j=0; 
5 ,004 1 1 2,001 @ @ 1 @ 0 for(j=0;j<10*ITER ; j++) 
5,004,000 0 0 2,001,000 0 0 1,000 @ 0 for(i=0@:i<SZ;i=i+STRI) 
| 
3)000 000 1 1 2,000,000 1,000,000 989 , test[i]++; 
} 


void b{void) 


3 1 1 1 0 0 { 
2 0 0 2 0 0 int 1=0,j=0; 
504 0 0 201 0 0 1 0 0 for (j=0;j<ITER; j++) 
500 ,400 1 1 200,100 0 0 100 0 0 for (i=0;i<SZ;i=i+STRI) 
{ 
300 ,000 0 0 200 ,000 100 ,000 0 . . test[i]++; 
| 
2 0 0 2 0 0 } 
malntf ) 
6 2 2 1 0 0 1 
1/* Arbitrary value*/ 
6 @ 0 4 0 0 memset (test, 42, SZ); 
1 0 0 1 0 0 al() 
1 0 0 1 0 0 bf( ) ; 
2 0 0 2 1 1 } 


li EER 


IF Iimr I2mr Dr Dimr D2mr Dw Dimw D2mw 


“se ss seeeee ese es ss so ens 0 so 000 00 000. on .00 00 00 00 00000.0 


如 清单 5.7 所 示 ， 我们 在 不 同 的 高 速 缓存 缺失 和 命中 友 生 时 ， 进 行 了 逐 行 分 解 。 我 们 能 看 到 内 层 for 循 环 几 乎 包抄 了 所 有 的 数 
据 引 用 。 和 我 们 预期 的 一 样 ， 函 数 a () 的 for 循 环 是 函数 b () 的 10 倍 。 


valgrind/cachegrind 提 供 的 不 同 级 别 (程序 级 、 水 数 级 和 代码 行 级 ) 的 详细 信息 为 你 提供 了 一 个 很 好 的 途径 来 了 解 应 用 程 
序 的 哪些 部 分 正在 访问 内 存 ， 以 及 在 有 效 地 使 用 处 理 器 的 高 速 缓存。 


5.2.5 kcachegrind 


kcachegrind 与 valgrind 密 切合 作 ， 提 供 关 于 被 剖析 应 用 程序 的 高 速 缓存 使 用 情况 的 详细 信息 。 它 在 标准 valgrind 的 基础 上 
增加 了 两 个 新 的 功能 。 首 先 ， 它 为 valgrind 提 供 了 一 个 界面 ， 称 为 calltree， 以 捕捉 特定 应 用 程序 的 高 速 级 仓 和 调用 树 的 统计 数 
据 。 其 次 ， 它 还 提供 了 对 高 速 缓 存 性 能 信息 的 图 形 化 展示 ， 以 及 新 钉 的 数据 视图 。 


5.2.5.1 内存 性 能 相关 的 选项 


与 valgrind 相 似 ， 使 用 kcachegrind 分 析 特 定 应 用 程序 的 高 速 缓存 使 用 情况 需要 两 个 阶段 : 收集 和 注释 。 收 集 阶段 从 如 下 命 
令 行 开 始 : 


calltree application 


命令 calltree 用 许多 不 同 的 选项 来 控制 收集 的 信息 。 表 5-5 给 出 了 其 中 一 些 比较 重要 的 选项 。 


表 5-5 callttee 命 令 行 选 项 


选 项 说 明 
--help 对 calltree 文 持 的 所 有 不 同 收 集 方法 的 简要 说 明 
-dump-instr=yes | no | 已 被 进程 锁定 的 内 存 总 量 。 被 锁定 的 内 存 不 能 交换 到 磁盘 
-trace-jump=yes | no 包括 了 分 文 信 息 ， 或 者 指出 了 每 个 分 文选 择 了 哪个 路 径 


calltree 可 以 记录 许多 不 同 的 统计 信息 。 更 多 信息 请 参阅 calltree 的 help 选 项 。 


在 收集 阶段 ，valgrind 用 calltree 界 面 来 收集 高 速 缓存 使 用 情况 的 信息 。 上述 命令 行 中 的 application 代 表 的 是 要 分 析 的 应 用 
程序 。 与 cachegrind 相 同 ， 在 收集 阶段 ，calltree 在 屏幕 上 显示 的 是 概要 信息 ， 而 它 同时 也 在 名 为 cachegrind.out.pid 的 文件 中 
保存 了 更 加 详细 的 统计 数据 ， 文 件 名 中 的 pid 是 其 运行 时 被 剖析 应 用 程序 的 PID。 

收集 阶段 完成 后 ， 用 命令 kcachegrind 把 高 速 缓存 使 用 情况 映射 回应 用 程序 的 源 代 码 。kcachegrind 调 用 方式 如 下 : 


kcachegrind cachegrind,out.pid 

kcachegrind 显 示 已 收集 的 高 速 缓存 分 析 统 计 信 息 ， 使 你 能 浏 氏 结果 。 

5.2.5.2 ”用 法 示例 

使 用 kcachegrind 的 第 一 步 是 用 符号 编译 应 用 程序 ， 以 允许 样本 到 源 代码 行 的 映射 。 下 面 的 命令 能 完成 这 一 步 : 
[ezolt@wintermute test_app]j$ gcc -0 burn burn.c -g3 


第 二 步 ， 对 应 用 程序 运行 calltree， 如 清单 5.8 所 示 。 这 提供 了 与 cachegrind 类 似 的 输出 ， 但 是 更 重要 的 是 ， 它 生成 了 
cachegrind.out 文 件 ，kcachegrind 将 使 用 这 个 文件 。 


清单 5.8 


[ezolt@wintermute test app]$ calltree --dump-instr=yes --trace-jump=yes ./burn 
==12242== Calltree-0.9.7，a call-graph generating cache profiler for x86-1inux. 
==12242== Copyright (C) 2002-2004, and GNU GPL'd, by N.Nethercote and J .Weidendorfer. 
==12242== Using valgrind-2.0.0, a program supervision framework for x86-1inux. 
==12242== Copyright (C) 2000.2003，and GNU GPL'd, by Julian Seward. 

==12242== Estimated CPU clock rate is 469 MHz 


==12242== For more details, rerun With: -vy 


==12242== 


==12242== 

==12242== I refs: 33 ,808 ,151 

==12242== I1 misses : 216 

==12242== L21 Misses: 215 

==12242== I1 miss rate: 0.0% 

==12242== L21 miss rate: 0 .0% 

==12242== 

==12242== D refs: 29,404,027 (4,402,969 rd + 25,001,058 wr) 
==12242== D1 misses: 4,225,324 (1,，100,290 rd + 3,125,834 wr) 
==12242== L2d misses: 4,225,324 (1,100,290 rd + 3,125,034 wr) 
==12242== D1 miss rate: 14.3% { 24.9% + 12,.4%  ) 
==12242== L2d miss rate: 14.3% ( 24.9% + 12.4% ) 
==12242== 

==12242== L2 refs: 4,225,54@ (1 100,506 rd + 3,125,834 wr) 
==12242== L2 misses: 4,225,539 (1,100,505 rd + 3,125,034 wr) 
==12242== L2 miss rate: 6.6% |( 2.8% + 12.4% ) 


当 我 们 得 到 cachegrind.out 文 件 后 ， 我 们 可 以 用 下 面 的 命令 来 局 动 Kcachegrind (v.0.54) 对 数据 进行 分 析 : 


[ezolt@wintermute test app]$ kcachegrind cachegrind.out.12242 


这 将 弹出 如 图 5-3 所 示 的 窗口 。 该 窗口 给 出 了 对 左边 窗 格 中 所 有 的 高 速 缓存 缺失 的 平面 拉 述 。 默 认 情 况 下 ， 显 示 L1 高 速 缓存 
的 数据 读 缺 失 。 
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接 下 来 ， 在 图 5-4 右 上 方 的 窗 格 中 ， 我 们 可 以 看 到 一 种 可 视 化 的 表示 ， 表 示 对 象 为 补 调 用 者 示意 图 ,或 者 由 左边 窗 格 内 遂 数 


(main) 调用 的 所 有 冰 数 (a () 和 b () ) 。 在 右 下 方 的 窗 格 中 ， 我 们 可 以 看 到 该 应 用 程序 的 调用 图 。 
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图 5-4 


最 后 ， 在 图 ?-5 中 ， 我 们 选择 查看 元 边 窗 格 内 一 个 不 同 的 函数 ， 并 用 石上 方 窗 格 选择 了 一 个 不 同 的 事件 (Instruction 
Fetch) 。 最 终 , 我 们 可 以 用 右 下 方 的 窗 格 将 用 汇编 代码 表示 的 循环 进行 可 视 化 。 
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述 示例 仪 仅 涉 及 了 Kcachegrind 功 能 的 表面 ， 学 习 这 个 工具 最 好 的 方法 就 是 尝试 使 用 它 。 对 那些 喜欢 将 性 能 问题 调查 可 视 
化 的 人 来 说，kcachegrind 是 一 个 非常 有 用 的 工具 。 


5.2.6 oprofile (Il) 


如 同 你 在 前 面 章节 里 了 解 过 的 一 样 ，oprofile 是 一 个 强大 的 工具 ， 它 有 助 于 确定 应 用 程序 的 时 间 都 花 在 哪些 地 方 。 不 
过 ，oprofile 还 可 以 和 处 理 器 的 性 能 计数 器 一 起 工作 ， 以 提供 关于 其 执行 情况 的 精确 描述 。cachegrind 模 拟 CPU 来 找到 高 速 缓 存 
的 缺失 /命中 ， 而 oprofile 则 利用 实际 的 CPU 性 能 计数 器 来 精确 查找 高 速 缓存 缺失 的 位 置 。 与 cachegrind 不 同 ，oprofile 不 用 模 
拟 处 理 器 ， 因 此 它 记 录 的 高 速 缓存 结果 是 真实 的 ， 由 操作 系统 导致 的 结果 则 将 是 可 见 的 。 此 外 ， 在 oprofile 下 分 析 的 应 用 程序 执 
行 起 来 基本 上 接近 其 原始 速度 ， 而 cachegirnd 则 要 伦 更 多 时 间 。 但 是 ， 与 oprofile 相 比 ，cachegrind 更 容易 安装 和 使 用 ， 并 且 
不 论 它 运行 于 那个 版 本 的 x86 处 理 器 ， 它 都 可 以 跟 路 同样 的 事件 。 当 你 需要 一 个 快捷 且 相 当 准 确 的 答案 时 ，cachegrind 是 一 个 很 
好 的 工具 。 而 当 你 需要 更 加 准确 的 统计 信息 或 者 cachegrind 无 法 提供 的 统计 信息 时 ，oprofile 束 很 有 用 了 。 


5.2.6.1 ”内 存 性 能 相关 的 选项 


本 蔬 在 讨论 oprofile 时 不 再 添加 任何 新 的 命令 行 选项 ， 因 为 在 天 于 CPU 性 能 的 章节 中 已 经 摘 述 过 它们 了 。 但 是 当 你 开始 采样 
与 oprofile 默 认 设 置 不 同 的 事件 时 ， 有 一 个 命令 会 变 得 更 加 重要 。 不 同 的 处 理 器 和 架构 可 以 采样 不 同 的 事件 集 ，oprofile 的 


op_help 命 令 会 显示 当前 你 的 处 理 器 所 支持 的 事件 列表 。 
we 用 二 示例 


如 前 所 述 ，oprofile 能 够 监控 的 事件 都 是 与 特定 处 理 器 相关 的 ， 因 此 ， 这 些 示例 都 是 运行 在 当前 的 机 器 上 的 ， 即 Pentium 
川 。 在 Pentium lll 上 ， 我 们 可 以 利用 oprofile 提 供 的 性 能 计数 器 来 收集 信息 ， 这 些 信息 与 valgrind 在 cachegrind 界 面 下 给 出 的 信 
息 类 似 。 这 使 用 的 就 是 性 能 计数 器 硬件 ， 而 不 是 软件 模拟 。 使 用 性 能 硬件 有 两 个 缺陷 。 第 一 ， 我 们 必须 应 对 性 能 计数 器 的 底层 硬 
件 限制 。 在 Pentium lll 上 ，oprofile 只 能 同时 测量 两 个 事件 ， 而 cachegrind 则 可 以 同时 测量 多 种 类 型 的 内 存 事件 。 这 就 意味 
着 ， 对 oprofile 来 说 要 测量 与 cachegrind 相 同 的 事件 ,我们 必须 多 次 运行 应 用 程序 ， 并 且 每 次 运行 期 间 都 要 改变 oprofile 的 监控 
事件 。 第 二 个 缺陷 就 是 oprofile 不 会 像 cachegrind 那 样 提供 精确 的 事件 计数 ， 它 只 对 计数 器 采样 ， 因 此 我 们 能 够 看 到 事件 最 有 可 
能 在 哪里 发 生 ， 但 是 却 无 法 看 到 确切 的 数量 。 实 际 上 ， 我 们 只 能 接收 到 (1/ 采 样 率 ) 个 采样 。 如 果 应 用 程序 只 会 让 一 个 事件 发 生 
几 次 ， 那 么 这 个 事件 可 能 根本 束 不 会 被 记录 下 来 。 尽 省 在 调试 一 个 性 能 问题 时 ， 不 知道 事件 确切 的 数目 会 让 人 泪 形 ， 但 通常 最 草 
要 的 却 是 弄 清楚 代码 行 之 间 样 本 的 相对 数量 。 即 使 无 法 直接 确定 特定 源 代 码 行 友 生 事 件 的 总 数 ， 但 是 可 以 找到 事件 最 多 的 那 一 
行 ， 一 般 说 来 ， 这 足以 启动 性 能 问题 调试 。 这 种 无 法 获取 准确 事件 计数 的 情况 出 现在 每 一 种 形式 的 CPU 采 样 中 ， 也 将 出 现在 所 
有 实现 它 的 处 理 器 性 能 硬件 中 。 而 实际 上 ， 正 是 这 一 限制 ， 使 得 性 能 硬件 从 根本 上 得 以 存 任 ， 如 果 没 有 它 ， 那 么 性 能 监控 将 会 导 
致 过 多 的 消耗 。 


oprofile 可 以 监控 许多 不 同类 型 的 事件 ， 这 些 事件 在 不 同 的 处 理 器 上 会 发 生变 化 。 作 为 示例 ， 本 小 节 将 介绍 一 些 Pentium 1Mll 
的 重要 事件 。 通 过 利用 下 述 事件 (事件 及 说 明 由 op_help 提 供 ) ，Pentium 1 可 以 监控 L1 数 据 高 速 缓存 (在 Pentium | 川中 被 称 
为 DCU) : 


[ezolt@localhost book]$ op help 
oprofile: available events for CPU type "PIII' 


See Intel Architecture Developer's Manual Volume 3, Appendix A and Intel 
Architecture Optimization Reference Manual (730795-001) 


DCU_ LINES IN: total lines allocated in the DCU 

DCU M LINES IN: number of M state lines allocated in DCU 

DCU M LINES OUT: number of M lines evicted from the DCU 

DCU MISS OUTSTANDING: number of cycles while DCU miss outstanding 


注意 ， 我 们 没有 与 cachegrind 提 供 信 息 的 确切 对 应 ， 即 L1 数 据 高 速 缓存 的 “ 读 和 写 ” 数 量 。 但 是 ， 通 过 使 用 
DCU_LINES_ IN 事件 ， 我 们 可 以 友 现 每 个 函数 有 多 少 周期 的 L1 数 据 缺 失 。 尽 管 这 个 事件 不 会 告诉 我 们 每 个 国 数 准 确 的 缺失 数量 ， 
但 是 它 却 会 告诉 我 们 每 个 辫 数 相对 于 彼此 在 高 速 缓存 中 有 多 少 缺 失 。 监 控 L2 数 据 高 速 组 存 的 事件 有 点 接近 ， 但 它 仍 然 没有 与 
cachegrind 提 供 信 息 的 精确 对 应 。 下 面 是 Pentium lll 的 与 L2 数 据 高 速 缓存 相关 的 事件 : 


[ezolt@localhost book]$ op_help 


L2 LD: number of L2 data loads 


Unit masks 


Ox08: (M)odified cache state 
Ox04: (E)xclusive cache State 
Ox02: (S)hared cache state 
Ox01: (I)nvalid cache state 


Ox0f: All cache states 


L2 ST: number of L2 data stores 


Unit masks 


0x08: (M)odified cache state 
Ox04: (E)xclusive cache state 
0Ox02: (S)hared cache state 
Ox01: (I)nvalid cache State 
0Oxof : All cache states 


L2 LINES IN: number of allocated lines in L2 
Pentium 川 实际 支持 的 要 比 这 些 更 多 ， 但 是 上 述 这 些 是 基本 的 加 载 和 体 储 事件 。 (cachegrind 将 加 载 称 为 “ 读 ，， 将 存储 
称 为 “ 写 ”。) 我 们 可 以 用 这 些 事件 来 计算 每 一 行 源 代 码 上 发生 的 加 载 和 存储 的 数量 。 我 们 还 可 以 用 L2_LINES_IN 来 显示 哪 一 块 
代码 有 更 多 的 L2 高 速 缓存 号 失 。 如 前 所 述 ， 我 们 不 会 得 到 精确 的 数值 。 此 外 ， 在 Pentium lll 上 ， 指 令 和 数据 共享 [2 高 速 缓 存 。 


任何 L2 缺 失 都 有 可 能 是 指令 或 数据 缺失 的 结果 。oprofile 展 现 给 我 们 的 L2 中 的 高 速 缓存 缺失 是 指令 和 数据 缺失 的 结果 ， 而 
cachegrind 则 帮助 我 们 将 它们 区 分 开 来 。 


在 Pentium lll 上 ， 有 一 系列 相似 的 事件 来 监控 指令 高 速 缓存 。 对 L1 指 令 高 速 缓存 (Pentium lll 称 其 为 “IFU”) 而 言 ， 我 
们 可 以 通过 使 用 如 下 事件 来 直接 测量 读 (或 取 ) 和 缺失 的 数量 : 


[ezolt@localhost book]$ op_help 
IFU IFETCH: number of non/cachable instruction fetches 


IFU_IFETCH MISS: number of instruction fetch misses 


我 们 还 可 以 利用 下 述 事 件 来 测量 从 L2 高 速 缓存 中 取 人 到 的 指令 数 : 


[ezolt@localhost book]$ op_help 


L2 IFETCH: {counter: @, 1) 
number of L2 instruction fetches (min count: 500 ) 
Unit masks 
Bx@8: (Modified Cache state 
@x@4: (E)xclusive cache state 
Ox@2: (S})hared cache state 
Ox0@1: (I)nvalid cache state 
Oxg@f : All cache states 


可 惜 的 是 ， 如 前 面 提 到 的 一 样 ， 处 理 器 的 L2 高 速 缓存 是 由 指令 和 数据 共享 的 ， 因 此 ， 没 有 办 法 区 分 数据 使 用 中 的 高 速 缓存 
缺失 和 指令 使 用 中 的 高 速 缓存 缺失 。 我 们 可 以 利用 这 些 事 件 来 获得 与 cachegrind 所 提供 信息 的 近似 值 。 


如 果 提 取 相 同 信息 是 如 此 困难 ， 为 什么 还 要 使 用 oprofile? 首先 ，oprofile 的 开销 非常 低 ( < 10%) 并 且 可 以 运行 于 产品 化 
的 应 用 程序 。 其 次 ，oprofile 可 以 精确 抽取 正在 友 生 的 事件 。 这 比 可 能 不 准确 的 模拟 器 要 好 得 多 ， 更 不 要 说 这 个 模拟 器 还 不 考虑 
操作 系统 或 其 他 应 用 程序 的 高 速 缓存 使 用 情况 。 


尽管 这 些 事件 在 Pentium lll 上 是 可 用 的 ， 但 它们 在 其 他 处 理 器 上 不 一 定 可 用 。 每 个 Intel 和 AMD 的 处 理 器 家 族 都 有 各 种 的 事 
件 集 可 用 来 提供 关于 内 存 子 系统 性 能 的 不 同 数量 的 信息 。op_help 显 示 可 被 监控 的 事件 ， 但 是 要 理解 这 些 事件 的 含义 可 能 还 需要 
阅读 详细 的 Intel 或 AMD 处 理 器 信息 。 


要 了 人 解 怎 样 用 oprofile 来 获取 高 速 缓存 信息 ， 可 用 对 比 同一 个 应 用 程序 在 使 用 cachegrind 的 虚拟 CPU 以 及 使 用 oprofile 的 实 
际 CPU 这 两 种 情况 下 的 高 速 缓存 使 用 情况 信息 。 让 我 们 运行 一 下 之 前 的 示例 程序 burn。 再 说 一 次 ， 这 个 应 用 程序 在 函数 a () 中 
运行 的 指令 是 函数 b () 中 的 十 倍 。 它 在 函数 a () 中 访问 的 数据 量 也 是 b () 中 的 十 倍 。 下 面 是 这 个 示例 程序 在 cachegrind 中 
的 输出 : 


”和 


Ir Iimr I2mr Dr Dimr Damr Dw Dimw D2mw 


和 


883,497,211 215 214 440,332,658 110,000 ,288 1,277 2,610,954 312,534 312,533 PROGRAM TOTALS 


De 


Ir Iimr I2mr Dr Dimr D2mr Dw Dimw D2mw file:function 
800 ,900 ,011 2 2 400 300 ,003 100 ,000 000 989 100 ,004 @ @ ?7?7:a 
80,098,011 2 2 40,030 ,003 16,000,000 外 18 ,8084 全 @ ?7?:b 
在 接 下 来 的 几 个 例子 中 ， 多 次 运行 了 oprofile 的 数据 收集 阶段 。 我 使 用 oprof start 为 特定 的 运行 设置 事件 ， 然 后 再 运行 演示 


程序 。 因 为 我 的 CPU 只 有 两 个 计数 器 ， 因 此 需要 多 次 重复 这 个 步骤 。 这 残 意 味 着 程序 不 同 的 执行 过 程 将 可 以 监控 到 不 同 的 事件 
集 。 由 于 我 的 应 用 程序 在 每 次 运行 时 不 会 改变 其 运行 方式 ， 因 此 ， 每 次 运行 都 应 产生 相同 的 结果 。 不 过 这 一 点 对 于 更 加 复杂 的 应 


用 程序 来 说 不 一 定 是 正确 的 ， 比 如 Web 服 务 器 或 数据 库 ， 它 们 会 根据 提出 的 请 求 动 态 改变 其 执行 情况 。 然 而 ， 对 于 简单 的 测试 
程序 来 如 这 一 点 则 是 适用 的 。 


收集 了 腔 样 信息 之 后 ， 我 们 用 opreport 提 取 被 收集 的 信息 。 如 清单 5.9 所 示 ， 我 们 向 oprofile 查 询 已 生成 的 对 数据 内 存 引 用 
的 数量 ， 以 及 在 L1 数 据 高 速 缓存 (DCU) 中 有 多 少 次 缺失 。 和 cachegrind 告 诉 我 们 的 一 样 ， 函 数 a () 对 内 存 引用 的 次 数 和 发 
生 的 L1 数 据 缺 失 数 是 函数 b () 的 10 倍 。 


清单 5.9 


[ezolt@wintermute test app]$ opreport -1 ./burn 
event:DATA MEM REFS,DCU LINES IN 


CPU: PIII, Speed 467.74 MHz (estimated) 


Counted DATA MEM REFS events (all memory references, cachable and non) 
with a unit mask of 0x00 {No unit mask) count 233865 


Counted DCU LINES IN events (total lines allocated in the DCU) with a 
unit mask of 0O0x00 (No unit mask) count 23386 


vma samples %S samples SS symbol name 
08048348 3640 90 .8864 5598 90 .9209 a 


0804839e 365 9.1136 559 9.0791 b 


现在 查看 清单 5.10， 它 显示 opreport 对 指令 高 速 缓存 进行 了 同样 的 信息 检测 。 请 注意 ， 和 我 们 预期 的 一 样 ， 消 数 a () 执行 
的 指令 数 是 函数 b () 的 10 倍 。 不 过 ，L1 指 令 缺 失 的 数量 却 和 cachegrind 预 期 的 不 同 。 最 可 能 的 原因 是 其 他 应 用 程序 和 内 核 正 
在 使 用 高 速 缓存 ， 从 而 导致 burn 在 icache 中 出 现 缺 失 。 (请 记 住 cachegrind 不 会 将 内 核 或 其 他 应 用 程序 的 高 速 缓存 使 用 情况 考 
谍 在 内 。) 同样 的 情况 也 可 能 友 生 在 数据 高 速 组 存 里 ， 但 由 于 应 用 程序 导 任 的 数据 高 速 缓 存 缺 失 数 量 太 大 ， 以 致 其 他 的 事件 束 补 


淹没 在 噪声 里 。 
清单 5.10 


[ezolt@wintermute test app]$ opreport -1 ./burn 

event:IFU IFETCH,IFU IFETCH_ MISS 

CPU: PIII, speed 467.74 MHz (estimated) 

Counted IFU IFETCH events (number of non/cachable instruction fetches) 
With a unit mask of 0x00 (No unit mask) count 233870 


Counted IFU IFETCH MISS events (number of instruction fetch misses) with 
a UnNit mask of 0x00 (No unit mask) count 500 


vma samples %S samples Ss symbol name 
08048348 8876 90.9240 14 93.3333 a 
0804839e 886 9.0760 1 6.6667 b 


比较 cachegrind 和 oprofile 的 输出 可 知 ， 用 oprofile 来 收集 与 内 存 相关 的 信息 是 很 有 效 的 ， 因 为 oprofile 开 销 低 且 能 直接 利 
用 处 理 器 硬件 ， 但 是 它 却 难以 找到 与 你 感 兴趣 的 内 容 相 匹配 的 事件 。 


5.2.7 1pcCs 


ipcs 是 一 种 系统 级 工具 ， 可 以 展示 进程 之 间 通 信 内 存 的 信息 。 进 程 可 以 分 配 整个 系统 共享 的 内 存 、 信 号 量 , 以 及 由 系统 上 运 


行 的 多 个 进程 所 共享 的 内 存 队 列 。ipcs 最 好 被 用 于 跟 路 哪些 应 用 程序 分 配 并 使 用 了 大 量 的 共享 内 存 。 
5.2.7.1 ”内 存 性 能 相关 的 选项 
ipcs 用 如 下 命令 行 调用 : 


ipcs [-t] [-c] [-1] [ul {*p] 


如 果 ipcs 调 用 时 不 带 任 何 参 数 ， 那 么 ， 它 会 给 出 系统 中 所 有 共享 内 存 的 汇 忌 信息 。 其 中 包括 拥有 者 信息 以 及 共享 内 存 段 的 大 
小 信息 。 表 5-6 说 明 的 选项 能 够 让 ipcs 显 示 不 同类 型 的 系统 共享 内 存 信息 。 


表 5-6 ipcs 命 令 行 选 项 


选 项 说 明 
-t 显示 共享 内 存 创建 时 间 ， 进程 最 后 访问 该 内 存 的 时 间 ， 以 及 进程 最 后 与 之 分 离 的 时 间 
Mu 提供 了 关于 共享 内 存 使 用 量 ， 以 及 它 是 否 已 被 交换 到 磁盘 还 是 仍 留 着 内 存 的 汇总 信息 
一 1 显示 了 对 共享 内 存 使 用 情况 的 系统 级 限制 
本 显示 了 创建 和 最 后 使 用 共享 内 存 段 的 进程 的 PID 
X 显示 作为 共享 内 存 段 的 创建 者 和 拥有 者 的 用 户 


由 于 共享 内 存 被 多 个 进程 使 用 ， 它 不 能 归属 于 任何 一 个 特定 的 进程 。ipcs 提 供 了 足够 的 系统 级 共享 内 存 的 状态 信息 ， 可 以 用 
于 确定 哪些 进程 分 配 了 共享 内 存 ， 哪 些 进程 使 用 了 它们 ， 以 及 使 用 的 频率 。 在 试图 降低 共享 内 存 使 用 量 时 ， 这 些 信息 是 很 有 用 
的 。 


5.2.7.2 ”用 法 示例 
首先 是 清单 5.11， 我 们 询问 ipcs 有 多 少 系统 内 存 被 用 作 共 享 内 存 。 这 清晰 地 指明 了 系统 中 共享 内 存 的 状态 。 
清单 5.11 


[ezolt@wintermute tmp]$ ipcs -u 


-I Shared Memory StatUus -------- 
segments allocated 21 

pages allocated 1585 

pages resident 720 

pages swapped 412 


Swap performance: 0 attempts 0 successes 


------ Semaphore Status -------- 
used arrays = 0 


allocated semaphores = 0 


------ Messages: Status -------- 


allocated queues = 0 
USed headers = 0 


USed Space = 0 bytes 


在 这 个 例子 中 ， 我 们 看 到 有 21 个 不 同 的 内 存 段 或 内 存 厂 已 经 被 分 配 了 。 所 有 这 些 段 一 共 占 用 了 1585 个 内 存 页 。 其 中 ，720 
页 留 驻 在 物理 内 存 中 ，412 页 已 经 交换 到 磁盘 。 


接 下 来 是 清单 5.12， 我 们 要 求 ipcs 为 系统 中 所 有 的 共享 内 存 段 提供 一 个 构 哆 。 这 会 措 明 谁 使 用 了 哪个 内 存 段 。 本 例 中 ， 我 们 
看 到 了 包含 所 有 共享 段 的 清单 。 特 别 是 共享 内 人 存 ID 为 62238 的 ， 其 用 户 (ezolt) 就 是 拥有 者 。 它 的 权限 为 600 (典型 的 UNIX 权 
， 在 本 例 中 ， 这 总 味 着 只 有 ezolt 能 够 对 其 进行 读 写 。 该 共享 段 有 393216 个 字 忆 ， 有 两 个 进程 访问 了 它 。 


清单 5.12 


[ezolt@wintermute tmp]$ ipcs 


------ Shared Memory Segments -------- 


key shmid owner perms bytes nattch status 
Ox00000000 0 root 777 49152 1 

Ox00000000 32769 root 777 16384 1 

Ox00000000 65538 ez0lt 600 393216 2 dest 
Ox00000000 98307 日 ZJ 七 600 393216 2 dest 
0Oxo0000000 131076 ez0lt 600 393216 2 dest 
Ox00000000 163845 ezolt 600 393216 2 dest 
x00000000 196614 ez0lt 600 393216 2 dest 
Ox00000000 229383 ez0lt 600 393216 2 dest 
Ox00000000 262152 ezolt 600 393216 2 dest 
Ox00000000 294921 ez0lt 600 393216 2 dest 
Ox00000000 327690 ezo0lt 600 393216 2 dest 
OxO0000000 360459 ezolt 600 393216 2 dest 
Ox00000000 393228 ez0lt 600 393216 2 dest 
Ox00000000 425997 ez0Olt 600 393216 2 dest 
OxOO0000000 458766 ez0lt 600 393216 2 dest 
Ox00000000 491535 e201t 600 393216 2 dest 
Ox00000000 622608 ez0lt 600 393216 2 dest 
0Oxooo000000 819217 root 644 110592 2 dest 
Ox00000000 589842 ez0lt 600 393216 2 dest 
Ox000000006 720916 ez0lt 600 12288 2 dest 
Ox00000000 786454 ez0lt 600 12288 2 dest 


-2 Semaphore Arrays -------- 
key semid owner perms nsems 


------ Message Queues -------- 


key msqid owner perms USed -bytes messages 


最 后 ， 我 们 还 可 以 确切 地 指出 哪些 进程 创建 了 共享 内 存 段 ， 哪 些 进程 使 用 了 这 些 段 ， 如 清单 5.13 所 示 。 对 shmid 为 32769 的 
段 来 六， 我 们 可 以 看 到 PID1224 的 进程 创建 了 它 ， 最 后 使 用 它 的 是 PID 为 11954 的 进程 。 


清单 5.13 


[ezolt@wintermute tmp]$ ipcs -p 


------ Shared Memory Creator/Last-op -------- 


shmid owner cpid lpid 
@ root 1224 11954 
32769 root 1224 11954 
65538 eZOJ] 1229 11954 
98307 ez0lt 1229 11954 
131876 ez0lt 1276 11954 
163845 ez0lt 1276 11954 
196614 ezolt 1285 11954 
229383 ezoOlt 1381 11954 
262152 ezo0lt 1307 11954 
294921 ezolt 1309 11954 
327690 ez0lt 1313 11954 
360459 ez0lt 1305 11954 
393228 ezOl]t 1321 11954 
425997 ezolt 1321 11954 
458766 ezolt 1250 11954 
491535 ezolt 1250 11954 
622608 ezolt 1313 11954 
819217 root 1224 11914 
589842 ezOlt 1432 14221 
720916 ezOlt 1250 11954 
786454 ezoOlt 1313 11954 
------ Message Queues PIDS -------- 
msqid owner lspid lrpid 


当 我 们 知道 了 负责 分 配 和 使 用 这 些 段 的 PID 之 后 ,我们 残 可 以 使 用 诸如 “ps-o command PID” 的 命令 从 PID 回 溯 到 进程 
名 。 


如 果 共 享 内 存 使 用 量 占 了 系统 总 量 的 很 大 一 部 分 ， 那 么 ipcs 是 一 个 很 好 的 方法 来 准确 地 跟 路 那些 创建 和 使 用 共享 内 存 的 程 
序 。 


5.2.8 动态 语言 (Java 和 Mono) 


与 CPU 性 能 工具 一 样 ， 本 章 讨论 的 大 多 数 工 具 都 支持 对 诸如 C 和 C++ 的 静态 语言 的 分 析 。 在 我 们 调查 的 工具 中 ， 只 有 ps、 
/proc 和 ipcs 是 支持 动态 语言 ， 如 Java、Mono、Python 和 Perl 等 。 高 速 组 存 和 内 存 训 析 工具 ， 如 oprofile 以 及 memprof 则 不 支 
持 动 态 语 言 。 像 CPU 分 析 一 样 ， 每 种 语言 都 提供 了 上 自 定义 的 工具 来 提取 内 人 存 使 用 情况 信息 。 


对 Java 应 用 程序 而 言 ， 如 果 Java 命 令 运行 时 带 上 了 -Xrunhprof 命 令 行 选项 ， 它 束 会 分 析 应 用 程序 的 内 存 使 用 情况 。 更 多 详 


细 信 息 参 见 http://antprof.sourceforge.net/hprof.html,， 或 者 运行 带 -Xrunhprof: help 选 项 的 java 命 令 。 对 Mono 应 用 程序 
来 说 ， 如 果 向 mono 可 执行 代码 传递 了 --profile 标 志 ， 它 也 会 分 析 应 用 程序 的 内 存 使 用 情况 。 更 多 详细 信息 参 
见 http://www.go-mono.comy/performance.html。Perl 和 Python 没有 出 现 类 似 的 功能 。 


5.3 “本章 小 结 


本 章 介 绍 了 各 种 可 以 用 于 诊断 内 存 性 能 问题 的 Linux 工 具 ， 展 示 了 可 以 显示 应 用 程序 内 存 消耗 量 的 工具 (Ps、/proc) ， 以 
及 显示 应 用 程序 中 的 哪些 消 数 分 配 了 内 存 的 工具 (memprof) 。 本 章 还 包括 了 可 以 监控 处 理 器 、 系 统 高 速 缓存 和 内 存 子 系统 有 
效 性 的 工具 (cachegrind、kcachegrind 和 oprofile) 。 本 章 最 后 描述 了 一 种 可 以 监控 共享 内 存 使 用 情况 的 工具 (ipcs) 。 这 些 
工具 一 起 使 用 残 可 以 跟踪 内 存 的 每 个 分 配 、 这 些 分 配 的 大 小 、 应 用 程序 中 这 些 分 配 的 消 数 位 置 ， 以 及 在 访问 这 些 分 配 时 ， 应 用 程 
序 使 用 内 存 子 系统 的 有 效 性 。 


下 一 章 将 调查 磁盘 MO 瓶 颈 。 


第 6 章 ”性 能 工具 : 磁盘 |/O 


本 草 介 绍 的 性 能 工具 能 帮助 你 评估 磁盘 |/O 子 系统 的 使 用 情况 。 这 些 工具 可 以 展示 哪些 磁盘 或 分 区 已 被 使 用 ， 每 个 磁盘 处 理 
了 多 少 MO， 发 给 这 些 磁 盘 的 MO 请 求 要 等 多 久 才 被 处 理 。 


阅读 本 章 后 ， 你 将 能 够 : 

- 确定 系统 内 磁盘 L/O 的 总 量 和 类 型 〈 读 / 写 ) (vmstat) 。 

. 确定 哪些 设备 服务 了 大 部 分 的 磁盘 I/O (vmstat，iostat，Ssat) 。 
. 确定 特定 磁盘 处 理 I/O 请 求 的 有 效 性 (iostat) 。 


- 确定 哪些 进程 正在 使 用 一 组 给 定 的 文件 (lsof) 。 


6.1 磁盘 |/O 介 绍 


在 深入 性 能 工具 之 前 ， 有 必要 了 解 Linux 磁 盘 I/O 系 统 是 后 样 构成 的 。 大 多 数 现代 Linux 系 统 都 有 一 个 或 多 个 磁盘 驱动 。 如 果 
它们 是 IDE 驱 动 ， 那 么 常常 将 被 命名 为 hda、hdb、hdc 等 ; 而 SCSI 驱 动 则 常常 被 命名 为 sda、sdb、sdc 等 。 磁 盘 通 常 要 分 为 多 
个 分 区 ,分 区 设备 名 称 的 创建 方法 是 在 基础 驱动 名 称 的 后 面 直接 添加 分 区 编号 。 比 如 ， 系 统 中 首 个 1DE 硬 驱动 的 第 二 个 分 区 通 瘦 
馈 标 记 为 /dev/hda2。 一 般 每 个 独立 分 区 要 么 包含 一 个 文件 系统 ， 要 么 包 合 一 个 交换 分 多。 这 些 分 区 被 挂 载 到 Linux 根 文件 系 
统 ， 该 系统 由 /etc/fstab 指 定 。 这 些 被 挂 载 的 文件 系统 包含 了 应 用 程序 要 读 写 的 文件 。 


当 一 个 应 用 程序 进行 读 写 时 ，Linux 内 核 可 以 在 其 高 速 缓存 或 缓冲 区 中 保存 文件 的 副本 ， 并 且 可 以 在 不 访问 磁盘 的 情况 下 返 
回 锌 请求 的 信息 。 但 是 ， 如 果 Linux 内 核 没 有 在 内 和 存 中 保 仓 数据 副本 ， 那 它 残 向 磁盘 |/O 队 列 添加 一 个 请 求 。 奋 Linux 内 核 注 意 到 
多 个 请 求 都 指向 磁盘 内 相 邻 的 区 域 ， 它 会 把 它们 合并 为 一 个 大 的 请 求 。 这 种 合并 能 消除 第 二 次 请 求 的 寻 道 时 间 ， 以 此 来 提高 磁盘 
整体 性 能 。 当 请 求 被 放 入 磁盘 队列 ， 而 磁盘 当前 不 忙 时 ， 它 融 开 始 为 MO 请 求 服务 。 如 果 磁 盘 正 已 ， 则 请 求 融 在 队列 中 等 待 ， 
到 该 设备 可 用 ， 请 求 将 被 服务 。 


6.2 磁盘 |/O 性 能 工具 


本 节 讨 论 各 种 各 样 的 磁盘 I/O 性 能 工具 ， 它 们 能 使 你 调查 一 个 给 定 应 用 程序 是 如 何 使 用 磁盘 |/O 子 系统 的 ， 包 括 每 个 磁盘 被 
使 用 的 程度 ， 内 核 的 磁盘 遍 速 缓 仓 的 工作 情况 ， 以 及 特定 应 用 程序 “打开 ”了 哪些 文件 。 


6.2.1 vmstat (lll) 


如 同 你 在 第 2 草 中 了 解 到 的 ，vmstat 是 一 个 强大 的 工具 ， 它 能 给 出 系统 在 性 能 方面 的 忌 抠 图 。 除 了 CPU 和 内 存 统计 信息 之 
外 ，vmstat 还 可 以 提供 系统 整体 上 的 |/O 性 能 情况 。 


6.2.1.1 磁盘 |/O 性 能 相关 的 选项 和 输出 
在 使 用 vmstat 从 系统 获取 磁盘 |/O 统 计 信息 时 ， 要 按照 如 下 方式 进行 调用 


vmstat [-D] [-d] [-p partition] [interval [count]] 


表 6-1 说 明 的 命令 行 选项 能 影响 vmstat 显 示 的 磁盘 1/O 统 计 信息 。 
表 6-1 vmstat 命令 行 选项 


选 项 说 明 
显示 Linux LO 子 系统 总 的 统计 数据 。 它 可 以 让 你 很 好 地 了 了解 你 的 IO 了 于 系统 是 
-0 如 何 被 使 用 的 ， 但 它 不 会 给 出 单个 磁盘 的 统计 数据 。 显 示 的 统计 数据 是 从 系统 局 动 
开始 的 总 信息 ， 而 不 是 两 次 采样 之 间 的 发 生 量 

按 每 interval 一 个 样本 的 速率 显示 单个 磁盘 的 统计 数据 。 这 些 统 计 信 息 是 从 系 
统 启 动 开始 的 总 信息 ， 而 不 是 两 次 采样 之 间 的 发 生 量 

按照 每 interval 一 个 采样 的 速率 显示 给 定 分 区 的 性 能 统计 数据 。 这 些 统 计 信 息 
是 从 系统 启动 开始 的 总 信息 ， 而 不 是 两 次 采样 之 间 的 发 生 量 
interval 采样 之 间 的 时 间 间 隔 
count | 所 取 的 样本 总 数 


—p partition 


如 果 你 在 运行 vmstat 时 只 使 用 了 [interval] 和 [count] 参 数 ， 其 他 参数 没有 使 用 ， 那 么 显示 的 束 是 默认 输出 。 该 输出 中 包 售 了 
三 列 与 磁盘 I/O 性 能 相关 的 内 容 : bo，bi 和 wa。 这 些 统计 信息 的 说 明 如 表 6-2 所 示 。 


在 用 -D 模 式 运行 时 ，vmstat 提 供 的 是 系统 内 磁盘 I/O 系 统 的 总 体 统计 数据 。 表 6-3 给 出 了 这 些 统计 信息 。 (注意 : 关于 这 些 
统计 数据 的 更 多 信息 参见 Documentation/iostats.txt 下 的 Linux 内 核 源 代码 包 ) 。 


表 6-2 ”vmstat 的 磁 圾 1/O 〇 统计 信息 (默认 模式 ) 


统计 数据 说 明 
bo 表示 前 次 间隔 中 被 写 和 人 磁盘 的 总 块 数 (vmstat 内 磁盘 的 典型 块 大 小 为 1024 字 节 ) 
bi 表示 前 次 间隔 中 从 磁盘 读 出 的 块 数 (vmstat 内 磁盘 的 典型 块 大 小 为 1024 字 节 ， 
wa 表示 等 待 7O 完成 所 消耗 的 CPU 时 间 。 每 秒 写 磁盘 块 的 速率 


表 6-3 ”vmstat 的 磁盘 I/ 〇 统计 信息 (-D 模 式 ) 


统计 数据 说 明 
disks 系统 中 的 磁盘 总 数 
partitions 系统 中 的 分 区 总 数 
total reads 读 请 求 总 数 
merged reads 为 了 提升 性 能 而 被 合并 的 不 同 读 请 求 数 量 ， 这 些 读 请 求 访问 的 是 磁盘 上 的 相 邻 位 置 
read sectors 从 磁盘 读 取 的 而 区 总 数 (一 个 而 区 通常 为 S12 字 节 ) 
milli reading 磁盘 读 所 花费 的 时 间 (以 训 秒 为 单位 ) 
writes 写 请 求 的 总 数 
merged writes 为 了 提升 性 能 而 被 合并 的 不 同 写 请 求 数量 ， 这 些 写 请 求 访 问 的 是 磁盘 上 的 相 邻 位 置 
written sectors 回 磁盘 写 和 人 的 扇 区 总 数 (一 个 扇 区 通常 为 S12 字 节 ) 
milli writing 磁盘 写 所 花费 的 时 间 (以 译 秒 为 单位 ) 


当前 正在 处 理 的 IO 总 数 。 请 注意 ， 最 近 版 本 (v3.2 ) 的 vmstat 在 这 里 有 个 漏 
洞 ， 除 以 1000 时 其 结果 是 错误 的 ， 几 乎 总 是 得 到 0 

等 待 IO 完成 所 花费 的 毫秒 数 。 请 注意 ， 最 近 版 本 ( v3.2 ) 的 vmstat 在 这 里 有 个 
漏洞 ， 其 数值 为 TO 花费 的 秒 数 ， 而 非 毫 秒 数 
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milli spent I0 


vmstat 的 -d 选 项 显示 的 是 每 一 个 磁盘 的 |/O 统 计 信息 。 这 些 统计 数据 与 -D 选 项 的 数据 类 似 ， 表 6-4 对 它们 进行 了 解释 。 


表 6-4 vmstat 的 磁盘 I/ 〇 统计 信息 (-dq 模 式 ) 


统计 数据 说 明 
reads: total 读 请 求 的 总 数 
reads: merged 为 了 提升 性 能 而 被 合并 的 不 同 读 请 求 数量 ， 这 些 读 请 求 访问 的 是 磁盘 上 的 相 邻 位 置 
reads: sectors 从 磁盘 读 取 的 而 区 总 数 
reads: ms 磁盘 谈 所 花费 的 时 间 〈 以 坚 秒 为 单位 ) 
writes: total 写 请 求 的 总 数 
writes: merged 为 了 提升 性 能 而 被 合并 的 不 同 写 请 求 数量 ， 这 些 写 请 求 访问 的 是 磁盘 上 的 相 邻 位 置 
writes: sectors 问 磁盘 写 入 的 刷 区 总 数 (一 个 悄 区 通常 为 512 字 节 ) 
writes: ms 磁盘 写 所 花费 的 时 间 〈 以 坚 秒 为 单位 ) 
当前 正在 处 理 的 TO 总 数 。 请 注意 ， 最 近 版 本 (v3.2 ) 的 vmstat 在 这 里 有 个 汤 


洞 ， 除 以 1000 时 其 结果 是 错误 的 ， 几 平 总 是 得 到 0 
I0: s 等 待 TO 完成 所 花费 的 秒 数 


最 后 ， 如 果 补 要求 提供 特定 分 区 的 统计 信息 ， 那 么 vmstat 就 会 显示 如 表 6-5 所 示 的 数据 项 。 


表 6-5 vmstat 的 分 区 1/ 〇 统计 信息 


统计 数据 说 明 


reads 孩 分 区 的 庶 请 求 总 数 
read sectors 从 该 分 区 证 取 的 刷 区 数量 
writes 该 分 区 LO 寻 致 的 写 总 数 
requested writes 该 分 区 的 写 请 求 总 数 


vmstat 的 默认 输出 提供 了 关于 系统 磁盘 |/O 的 一 个 粗略 但 良好 的 指示 。vmstat 提 供 的 选项 则 使 你 能 了 解 更 多 细 石 ， 以 友 现 哪 
些 设备 要 对 |/O 负 责 。vmstat 超 过 其 他 |/O 工 具 的 主要 优势 是 : 几乎 所 有 的 Linux 友 行 版 本 都 包含 该 工具 。 


6.2.1.2 用 法 示例 


随 着 vmstat 版 本 的 升级 ， 它 能 呈现 给 Linux 用 户 的 I/O 统 计 信 息 数 量 也 不 断 增加 。 本 节 给 出 的 示例 针对 3.2.0 或 更 高 版 本 的 
vmstat。 此 外 ，vmstat 提 供 的 扩展 磁盘 统计 信息 只 用 于 内 核 版 本 高 于 2.5.70 的 Linux 系 统 。 


在 清单 6.1 显 示 的 例子 中 ， 我 们 调用 的 vmstat 只 取 3 个 样本 ， 时 间 间 隅 为 1 秒 。vmstat 输 出 整个 系统 的 性 能 概况 ， 如 我 们 在 第 
2 章 所 见 一 样 。 


清单 6.1 


[ezolt@wintermute procps-3.2.0]$ ./vmstat 1 3 


procs ----------- mMemory---------- --- SWap-- ----- i0---- -- System-- ---- cpu 

r b swpd free buff cache Si 80 bi bo in CS US Sy id wa 
1 1 @ 197020 81804 29920 0 @ 236 25 10817 67 1 193 4 
1 1 @ 172252 106252 29952 @ @ 24448 @ 1200 395 1 36 0 63 
@ 0 @ 231068 50004 27924 四 @ 19712 80 1179 345 1 34 15 49 


清单 6.1 显 示 ， 在 一 次 采样 期 间 ， 系 统 读 取 了 24448 个 磁盘 块 。 如 前 所 述 ， 磁 盘 块 大 小 为 1024 字 节 ， 这 融 意 味 痢 系统 读 取 数 
据 的 速率 约 为 每 秒 23MB。 我 们 还 可 以 看 到 ， 在 这 个 采样 过 程 中 ，CPU 化 费 了 相当 多 的 时 间 来 等 竺 MO 完成 ， 它 有 63% 的 时 间 用 
于 MO， 而 磁盘 读 取 速 率 约 为 每 秒 23MB。 在 下 一 个 采样 中 ， 它 有 49% 的 时 间 用 于 IMM/O， 而 磁盘 读 取 速率 约 为 每 秒 19MB。 


接 下 来 ， 在 清单 6.2 中 ， 我 们 要 求 vmstat 提 供 目 系统 局 动 以 来 MO 子 系统 的 性 能 信息 。 
清单 6.2 


[ezolt@wintermute procps-3.2.0]$ ./vmstat -D 
3 disks 
5 partitions 
53256 total reads 
641233 merged reads 
4787741 read sectors 
343552 milli reading 


14479 writes 
17556 merged writes 
257208 Written sectors 
7237771 milli writing 
@ inprogress I0 
342 milli spent IO 


在 清单 6.2 中 ，vmstat 提 供 了 系统 内 所 有 磁盘 驱动 器 的 MO 统计 汇 忠 信息 。 如 前 所 述 ， 在 读 写 磁盘 时 ， 为 了 提高 性 能 ，Linux 
内 核 试图 合并 对 磁盘 相 邻 区 域 的 请 求 。vmstat 在 报告 这 些 事件 时 ， 将 它们 称 为 merged reads (合并 读 ) 和 merged writes ( 合 
并 写 ) 。 本 例 中 ， 大 量 友 给 系统 的 读 请 求 在 提交 给 设备 之 前 被 合并 了 。 虽 然 合 并 读 有 约 640000 个 ， 但 真正 向 设备 提交 的 读 命 令 
却 只 有 约 53000 个 。 输 出 还 告诉 我 们 从 磁盘 中 总 共 读 出 了 4787741 个 扇 区 ， 并 且 自 系统 启动 开始 ， 从 磁盘 读 取 共 花费 了 343552 
室 秒 (或 344 秒 ) 。 写 性 能 也 可 以 得 到 同样 的 统计 信息 。 这 些 I/O 统 计 信息 能 让 我 们 很 好 地 了 解 整个 MO 子 系统 的 性 能 。 


上 面 的 例子 显示 的 是 整个 系统 的 MO 统计 数据 ， 而 下 面 清 单 6.3 中 的 例子 显示 的 统计 信息 则 细 化 到 了 每 个 独立 磁盘 。 


清单 6.3 


[ezolt@wintermute procps-3.2.0]$ ./vmstat -d1 3 


disk --.---.--.-.-- reads------------ -+ WriteS--------.-.-.-. -0 10-.-.--.-.-- 
total merged sectors ms total merged sectors ms cur S 
fd 0 0 0 0 0 0 0 0 0 0 
hde 17099 163180 671517 125006 8279 9925 146304 2831237 0 125 
hda 0 0 0 0 0 0 0 0 0 0 
fdo 0 0 0 0 0 0 0 0 0 0 
hde 17288 169008 719645 125918 8279 ”9925 146304 2831237 0 126 
hda 0 0 0 0 0 0 0 0 0 0 
fd0 0 0 0 0 0 0 0 0 0 0 
hde 17288 169008 719645 125918 8290 9934 146464 2831245 0 126 
hda 0 0 0 0 0 0 0 0 0 0 


清单 6.4 显 示 出 有 60 (19059-18999) 个 读 和 94 (24795-24701) 个 写 提交 给 了 分 区 hde3。 当 你 试图 确定 哪个 磁盘 分 区 最 
常 被 使 用 时 ， 这 个 统计 就 显得 特别 有 用 。 


清单 6.4 


[ezolt@wintermute procps-3.2.0]$ ./vmstat -p hde3 1 3 


hde3 reads read sectors writes requested writes 
18999 191986 24701 197608 
19059 192466 24795 198360 
19161 193282 24795 198360 


时 然 vmstat 提 供 了 单个 磁盘 /分 区 的 统计 信息 ， 但 是 它 只 给 出 其 总 量 ， 却 不 给 出 在 采样 过 程 中 的 变化 率 。 因 此 ， 要 分 辨 哪个 
设备 的 统计 数据 在 采样 期 间 发 生 了 明显 的 变化 丈 显 得 很 困难 。 


6.2.2 1ostat 


iostat 与 vmstat 相 似 ， 但 它 是 一 个 专门 用 于 显示 磁盘 |/O 子 系统 统计 信息 的 工具 。iostat 提 供 的 信息 细 化 到 每 个 设备 和 每 个 分 
区 从 特定 磁盘 读 写 了 多 少 个 块 。 (iostat 中 块 大 小 一 般 为 512 字 节 。) 此 外 ，iostat 还 可 以 提供 大 量 的 信息 来 显示 磁盘 是 如 何 被 利 
用 的 ， 以 及 Linux 人 花费 了 多 长 时 间 来 等 待 将 请 求 提 交 到 磁盘 。 


6.2.2.1 磁盘 MO 性 能 相 天 的 选项 和 输出 


iostat 用 如 下 命令 行 调用 : 


iostat [-d] [-k] [-x] [device] [interval [count]] 


与 Vmstat 很 相似 ，iostat 可 以 定期 显示 性 能 统计 信息 。 不 同 的 选项 可 以 改变 iostat 显 示 的 统计 数据 ， 如 表 6-6 所 示 。 


表 6-6 iostat 命 令 行 选项 


选 项 说 明 
—d 只 显示 磁盘 IO 的 统计 信息 ， 而 不 是 默认 信息 。 默 认 信息 中 还 包括 了 CPU 使 用 情况 
= 按 KB 显示 统计 数据 ， 而 不 是 按 块 显示 
—Xx 显示 扩展 性 能 IO 统计 信息 
device 若 指 定 设备 ， 则 iostat 只 显示 该 设备 的 信息 
interval 采样 间隔 时 间 
count 获取 的 样本 总 数 


iostat 默 认输 出 显示 的 性 能 统计 信息 如 表 6-7 所 示 。 


表 6-7 iostat 设 备 统计 信息 


统计 数据 说 明 
tps 每 秒 传输 次 数 。 该 项 为 每 秒 对 设备 /分 区 读 写 请 求 的 次 数 
Bl1k_read/s 每 秒 读 取 磁盘 块 的 速率 
B1k_wrtn/s 每 秒 写 人 磁盘 块 的 速率 
B1k_read 在 时 间 间 隔 内 读 取 块 的 总 数量 
B1k_wrtn 在 时 间 间 隅 内 写 人 块 的 总 数量 


当 你 使 用 -x 参数 调用 iostat 时 ， 它 会 显示 更 多 关于 磁盘 I/O 子 系统 的 统计 信息 。 这 些 扩展 的 统计 信息 如 表 6-8 所 示 。 


iostat 是 一 个 有 用 的 工具 ， 它 提供 了 运 今 为 止 我 所 友 现 的 最 完整 的 磁盘 |/O 性 能 统计 人 信息。 里 然 vmstat 非 常 普及 ， 并 且 提 供 
了 一 些 基 本 的 统计 信息 ， 但 是 iostat 更 加 完备 。 如 果 你 的 系统 已 经 安装 了 iostat 并 且 可 用 ， 那 么 当 系 统 仓 在 磁盘 I/O 性 能 问题 时 ， 
下 移 使 用 的 工具 融 应 该 是 iostat。 


表 6-8 iostat 的 扩展 磁盘 统计 信息 


统计 数据 说 明 
rrqm/s 在 提交 给 磁盘 前 ， 被 合并 的 读 请 求 的 数量 
wrqm/s 在 提交 给 磁盘 前 ， 被 合并 的 写 请 求 的 数量 
r/s 每 秒 提交 给 磁盘 的 读 请 求 数量 
w/s 每 秒 提交 给 磁盘 的 写 请 求 数量 
rsec/s 每 秒 读 取 的 磁盘 刷 区 数 
wsec/s 每 秒 写 人 的 磁盘 刷 区 数 
rkB/s 每 秒 从 磁盘 读 取 了 多 少 KB 的 数据 
wkB/s 每 秒 向 磁盘 写 人 了 多 少 KB 的 数据 
avgrq-Sz 磁盘 请 求 的 平均 大 小 ( 按 书 区 计 ) 
avgqu—sz 磁盘 请 求 队列 的 平均 大 小 


完成 对 一 个 请 求 的 服务 所 需 的 平均 时 间 ( 按 这 秒 计 )。 该 平均 时 间 为 请 求 在 磁盘 队列 中 


it 
和 等 待 的 时 间 加 上 磁盘 对 其 服务 所 需 的 时 间 
二 提交 到 磁盘 的 请 求 的 平均 服务 时 间 ( 按 毫 秒 计 )。 该 项 表明 磁盘 完成 一 个 请 求 所 花费 的 


平均 时 间 。 与 await 不 同 ， 该 项 不 包含 在 队列 中 等 待 的 时 间 


6.2.2.2 ”用 法 示例 


清单 6.5 给 出 了 iostat 


据 。 


清单 6.5 


\ 一 /一 


过 但 


的 一 个 示例 ， 一 个 磁盘 基准 测试 程序 向 位 于 /dev/hda2 分 区 上 的 文件 系统 写 入 一 个 测试 文件 。 
iostat 显 示 的 第 一 个 采样 是 目 系 统 司 动 开始 时 系统 总 的 平均 情况 。 第 二 个 采样 (及 其 后 内 容 ) 是 每 个 时 间 间 隅 为 1 秒 的 统计 数 


[ezolt@localhost sysstat-5.0.2]$ ./iostat -d 1 2 
Linux 2.4.22-1.2188.nptl (localhost.1localdomain) 


Device.: 


hda 
hdat 
hda2 
hda3 
hdb 


Device: 


hda 
hdal 
hda2 
hda3 
hdb 


tps 
7.18 
0.00 
7.09 
0.09 
0.00 


tps 
105 .05 
0.00 
100 .36 
4.69 
0.00 


Blk read/s 
Lele 
0.03 

119 .75 
1.33 

0.00 


Blk_read/s 
5.78 
0.00 
St 
0.00 
0.00 


Blk wrtn/s 
343.87 
0.00 

337 .59 
6.28 

0.00 


Blk wrtn/s 
12372.56 
0.00 
11792.06 
580 .51 
0.00 


05/01/2004 


Blk_read 
1344206 
316 
1329018 
14776 

16 


Blk read 
16 
0 
16 
0 
0 


Blk wrtn 
3816510 
46 
3746776 
69688 

0 


Blk_wrtn 
34272 


上 面 例子 中 一 个 有 趣 的 地 方 是 ，/dev/hda3 不 大 活跃 。 在 被 测试 的 系统 中 ，/dev/hda3 是 一 个 交换 分 区 。 


这 个 分 区 记录 的 任 


何 活动 都 是 由 内 核 将 内 存 交换 到 磁盘 导致 的 。 通 过 这 种 方式 ，iostat 提 供 了 一 种 间接 方式 来 确定 系统 中 有 多 少 磁盘 I/O 是 交换 造 


成 的 。 


清单 6.6 显 示 了 更 多 的 iostat 输 出 。 


清单 6.6 


[ezolt@localhost sysstat-5.0.2]$ ./iostat -x -dk 1 5 /dev/hda2 


Linux 2.4.22-1.2188.nptl1 (localhost.localdomain) 05/01/2004 
Device: rrqm/s wrqm/s ri/s WwW/s rsec/s wsec/s rkB/s wkB/s 
avgrq-SzZ avgqu-sz await svctm %util 

hda2 11.22 44.40 3.15 4.20 115.00 388.97 57.50 194 .49 

68 .52 1 wortT tladr? 8.43 

Device: rrqm/s wrqm/s r/s W/S rsec/s wsec/s rkB/s WkB/S 
avgrgq-SzZ avgqu-SZ await  Svctm %util 

hda2 0.00 1548.00 0.00 100.00 0.00 13240.00 0.00 6620.00 


132 .40 55.13 538.60 10.00 100.00 


Device: rrqm/s wrqam/s r/s W/S rsec/s wsec/s rkB/s WKkKB/s 
avgrq-sz avgqu-SZ await svctm %util 
hda2 0.00 1365.00 0.00 131.00 0.00 11672.00 0.00 5836.00 


89 .10 53.86 422.44 7.63 100.00 


Device: rrqm/s wrqm/s r/s W/S rsec/s wsec/s rkB/s wkB/s 
avgrq-sz avgqu -SzZ await svctm %util 
hda2 0.00 1483.00 0.00 84.00 0.00 12688.00 0.00 6344.00 


151.05 39.69 399.52 11.90 100.00 


Device: rrqm/s wram/s 了 了 W/S rsec/s WSec/S rkB/s wkB/s 
avgrq-SZ avgquU -SzZ await svctm %util 
hda2 0.00 2067.00 0.00 123.00 0.00 17664.00 0.00 8832.00 


143 .61 58.59 508.54 8.13 100.00 


在 清单 6.6 中 ， 你 可 以 看 到 平均 队列 长 度 相当 高 ( 约 237 ~ 538) ， 其 结果 是 ， 请 求 需 等 待 的 时 间 ( 约 422.44 ~ 538.60 毫 秒 ) 
远 远 高 于 请 求 服 务 所 花费 的 时 | 间 (7.63 ~ 11.90 宫 秒 ) 。 这 么 高 的 平均 服务 时 间 ， 再 加 上 利用 率 100% 的 事实 ， 都 表明 了 该 磁盘 处 
于 完全 饱和 状态 。 


扩展 iostat 输 出 提供 了 太 多 的 统计 信息 ， 使 得 它 只 适合 在 很 冤 的 终端 上 的 日 行 显示 。 但 是 ， 在 识别 成 为 瓶 须 的 特定 磁盘 时 ， 
这 些 信息 几乎 全 是 你 所 需要 的 。 


6.2.3 sar (| 

第 2 章 中 曾经 讨论 过 ，sar 可 以 收集 Linux 系 统 多 个 不 同方 面 的 性 能 统计 信息 。 除 了 CPU 和 内 存 之 外 ， 它 还 可 以 收集 关于 磁盘 
I/O 子 系统 的 信息 。 

6.2.3.1 ”磁盘 I/O 性 能 相关 的 选项 和 输出 

当 使 用 sar 来 监视 磁盘 |/O 〇 统计 数据 时 ， 你 可 以 用 如 下 命令 行 来 调用 它 : 


sar -d [ interval [ count ] |] 


通常 ，sar 显 示 的 是 系统 中 CPU 使 用 的 相关 信息 。 若 要 显示 磁盘 使 用 情况 的 统计 信息 ， 你 必须 使 用 -d 选 项 。sar 只 能 在 高 于 


2.5.70 的 内 核 版 本 中 显示 磁盘 I/O 统 计数 据 。 表 6-9 对 其 显示 信息 进行 了 说 明 。 


名 


表 6-9 sat 设备 统计 信息 
统计 数据 说 有 明 
tps 每 秒 传输 数 。 该 项 为 每 秒 对 设备 /分 区 进行 该 写 的 次 数 
rd_sec/s 每 秒 读 取 的 磁盘 书 区 数 
wr_sec/s 每 秒 写 入 的 磁盘 刷 区 数 


局 区 数 直 接 取 上 自 内 核 ， 虽 然 有 可 能 友 生 变化 ， 但 通常 情况 下 ， 其 大 小 为 512 字 忆 。 


6.2.3.2 ”用 法 示例 


在 清单 6.7 中 ，sar 被 用 于 收集 系统 设备 的 |/O 人 信息。 在 丈 出 设备 时 ，sar 使 用 的 是 它们 的 主 设备 号 和 次 设备 号 ， 而 不 是 它们 的 


mn 


子 。 


清单 6.7 


与 iostat 相 比 ，sar 给 出 的 磁盘 MO 统计 信息 数量 是 有 限 的 。 但 其 可 以 同时 记录 多 个 不 同类 型 统计 信息 的 特点 可 以 弥补 这 些 缺 


[ezolt@wintermute sysstat-5.0.2]$ sar -d 1 3 


Linux 2.6.5 (wintermute.phil.org) 


19: 
16 : 
16 : 
16 : 
16 : 


38 : 
38 : 
38 : 
38 : 
38 : 


28 
29 
29 
29 
29 


16 : 
102 
16: 
:二 
16 : 


38 : 
38 :30 
38 :30 
38:30 
38:30 


29 


16: 
16: 
Ts 
46: 
16: 


38:30 
38:;31 
38:31 
38:31 
38:31 


Average: 
Average: 
Average: 
Average 


Average: 


DEV 

dev2 -0 
dev33.-0 
dev33 -64 
dev3-.0 


DEV 
dev2-0 
dev33-0 
dev33-64 
dev3-0 


DEV 
dev2-0 
dev33-0 
dev33-64 
dev3 .0 


DEV 
dev2.0 
dev33 -0 
dev33-64 
dev3-0 


tps 
0.00 
1 
0.00 
0.00 


tps 
0.00 
237.00 
0.00 
0.00 


tps 
0.00 
201 .00 
0.00 
0.00 
tps 
0.00 
184.62 
0.00 
0.00 


05/02/04 

rd sec/s wr sec/s 
0.00 0.00 
808.08 2787 .88 
0.00 0.00 
0.00 0.00 
rd_sec/s wr _ sec/s 
0.00 0.00 
1792 .00 8.00 
0.00 0 .00 
0.00 0.00 

rd sec/s wr sec/s 
0.00 0.00 
1608 .00 0.00 
0.00 0.00 
0.00 0.00 
rd_Sec/S wr Sec/Ss 
0.00 0.00 
1404.68 925 .75 
0.00 0.00 
0.00 0.00 


6.2.4 jsof ( 列 出 打开 文件 ) 


lsof 提 供 了 一 种 方法 来 确定 哪些 进程 打开 了 一 个 特定 的 文件 。 除 了 跟踪 单个 文件 的 用 户外 ，lsof 还 可 以 显示 使 用 了 特定 目录 
下 文件 的 进程 。 同 时 ， 它 还 可 以 递归 搜索 整个 目录 树 ， 并 列 出 使 用 了 该 目录 树 内 文件 的 进程 。 在 要 筛选 哪些 应 用 程序 产生 了 |/O 
时 ，lsof 是 很 有 用 的 。 


6.2.4.1 磁盘 |/O 性 能 相关 的 选项 和 输出 
你 可 以 使 用 如 下 命令 行 调用 lsof 来 找 出 进程 打开 了 哪些 文件 : 


lsof [-r delay] [+D directory] [+d directory] [file] 


通常 ，lsof 显 示 的 是 使 用 给 定 文件 的 进程 。 但 是 ， 通 过 使 用 +d 和 +D 选 项 ， 它 可 以 显示 多 个 文件 的 相关 信息 。 表 6-10 解 释 了 
lsof 的 命令 行 选项 ， 它 们 可 用 于 仍 踩 MO 性 能 问题 。 


表 6-10 ”1sof 命 令 行 选项 


选 项 说 明 
-r delay 使 得 1sof 每 间隔 delay 秒 输出 一 次 统计 数据 
+D directory 使 得 1sof 递归 搜索 给 定 目 录 下 的 所 有 文件 ， 并 报告 哪些 进程 正在 使 用 它们 
+d directory 使 得 1sof 报告 哪些 进程 正在 使 用 给 定 目录 下 的 文件 


在 展示 哪些 进程 正在 使 用 指定 文件 时 ，lsof 就 会 显示 表 6-11 说 明 的 统计 信息 。 


表 6-11 lsof 文 件 统计 信息 


统计 数据 说 明 

COMMAND 打开 该 文件 的 命令 的 名 称 

PID 打开 该 文件 的 命令 的 PID 

USER 打开 文件 的 用 户 

FD 该 文件 的 描述 符 。txt 表示 可 执行 文件 ，mem 表示 内 存 映射 文件 
TYPE 文件 类 型 ，REG 表示 常规 文件 

DEVICE 用 主 设备 号 和 次 设备 号 表示 的 设备 编号 

SIZE 文件 的 大 小 

NODE 文件 的 索引 市 点 


虽然 |sof 不 会 给 出 特定 进程 进行 文件 访问 的 数量 和 类 型 ,但 它 人 至 少 可 以 显示 哪些 进程 正在 使 用 特定 文件 。 
6.2.4.2 用 法 示例 
清单 6.8 给 出 了 运行 在 /user/bin 目 录 的 lsof。 访 运行 显示 了 访问 /user/bin 下 所 有 文件 的 进程 。 


清单 6.8 


[ezolt@localhost manuscript]$ /usr/sbin/lsof -r 2 +D /usr/bin/ 

COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME 

gnome -ses 2162 ezolt txt REG 3,2 113800 597490 /usr/bin/gnome-session 
ssh-.agent 2175 ezolt txt REG 3,2 61372 596783 /usr/bin/ssh-agent 
gnome -key 2182 ezolt txt REG 3,2 77664 602727 /usr/bin/gnome-keyring-daemon 
metacity 2186 ezolt txt REG 3,2 486520 597321 /usr/bin/metacity 

gnome -pan 2272 ezolt txt REG 3,2 503100 602174 /usr/bin/gnome-panel 
nautilus 2280 ezolt txt REG 3,2 677812 598239 /usr/bin/nautilus 
magicdev 2287 ezolt txt REG 3,2 27008 598375 /usr/bin/magicdev 
eggcups 2292 ezolt txt REG 3,2 32108 599596 /usr/bin/eggcups 
pam-panel 2305 ezolt txt REG 3,2 45672 600140 /usr/bin/pam-panel-icon 
gnome-ter 3807 ezolt txt REG 3,2 289116 596834 /usr/bin/gnome-terminal 
less 6452 ezolt txt REG 3,2 104604 596239 /usr/bin/less 

COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME 

gnome -ses 2162 ezolt txt REG 3,2 113800 597490 /usr/bin/gnome-session 
ssh-agent 2175 ezolt txt REG 3,2 61372 596783 /usr/bin/ssh-agent 
gnome -key 2182 ezolt txt REG 3,2 77664 602727 /usr/bin/gnome-keyring-daemon 
metacity 2186 ezolt txt REG 3,2 486520 597321 /usr/bin/metacity 

gnome -pan 2272 ezolt txt REG 3,2 503100 602174 /usr/bin/gnome-panel 
nautilus 2280 ezolt txt REG 3,2 677812 598239 /usr/bin/nautilus 
magicdev 2287 ezolt txt REG 3,2 27008 598375 /usr/bin/magicdev 
eggcups 2292 ez0olt txt REG 3,2 32108 599596 /usr/bin/eggcups 
pam-panel 2305 ezolt txt REG 3,2 45672 600140 /usr/bin/pam-panel-icon 
gnome -ter 3807 ezolt txt REG 3,2 289116 596834 /usr/bin/gnome-terminal 
less 6452 ezolt txt REG 3,2 104604 596239 /usr/bin/less 


我 们 特别 看 看 进程 3807， 它 使 用 了 文件 /user/bin/gnome-terminal。 根 据 FD 列 给 出 的 txt， 该 文件 是 一 个 可 执行 文件 ， 使 
用 它 的 命令 的 名 称 力 gnome-terminal。 这 是 合情合理 的 ， 因 为 运行 9gnome-terminal 的 进程 必须 打开 这 个 可 执行 文件 。 需 要 注 
意 的 一 个 有 趣 的 现象 是 ， 这 个 文件 位 于 设备 “3，2” 上 ， 其 对 应 的 是 /dev/hda2。 (通过 执行 Is-la/dev 并 查看 通常 显示 大 小 的 
输出 字段 ， 你 就 可 以 友 现 所 有 系统 设备 的 设备 号 。) 如 果 你 知道 某 个 设备 是 |/O 皂 贷 的 源头 ， 那 么 了 解 文件 位 于 哪个 设备 就 会 有 
所 帮助 。lsof 具 有 一 个 独特 的 能 力 ， 它 能 根据 打开 文件 描述 符 回溯 到 单个 进程 。 尽 管 它 不 会 显示 哪些 进程 有 大 量 的 |/O， 但 是 它 
确实 提供 了 一 个 起 点 。 


6.3 缺 什么 


所 有 的 Linux 磁 盘 I/O 工 具 都 可 以 提供 天 于 特定 磁盘 或 分 区 的 使 用 信息 。 可 展 的 是 ， 当 你 确定 了 有 某 个 磁盘 是 瓶颈 之 后 ， 没 
工具 能 够 帮助 你 找 出 是 哪个 进程 导 人 至 了 这 些 |/O 流 量 。 


一 般 情 况 下 ， 系 统管 理 员 比 较 了 解 哪个 应 用 程序 在 使 用 磁盘 ， 但 情况 并 不 总 是 这 样 。 比 如 ， 很 多 时 候 我 正在 使 用 我 的 Linux 
系统 ， 而 磁盘 却 开始 无 缘 无 故地 频繁 读 写 。 通 常 ， 我 可 以 运行 top 来 找 出 可 能 导致 这 个 问题 的 进程 。 通 过 剔除 那些 我 认为 与 MO 
无 关 的 进程 ， 一 般 丈 可 以 找 出 罪 鬼 祸首。 但是， 做 到 这 一 点 就 需要 具备 相应 的 知识 ， 了 解 各 种 应 用 程序 应 该 做 什么 。 而 且 这 种 方 


了 式 也 容易 出 氏 ， 因 为 对 哪些 进程 不 会 导致 问题 的 猜测 有 可 能 是 错误 的 。 此 外 ， 对 一 个 有 着 多 个 用 户 或 运行 多 个 应 用 程序 的 系统 来 
说， 要 确定 哪个 应 用 程序 可 能 引 友 问题 常常 不 太 实 用 也 不 太 容易 。 其 他 的 UNIX 系 统 支 持 ps 中 的 inblk 和 outbik 参 数 ， 可 以 向 你 显 
示 特 定 进程 的 磁盘 MO 数 量 。 目 前 ，Linux 内 核 不 跟 踩 进程 的 MO， 因此 工具 ps 无 法 收集 这 些 信息 。 


你 可 以 用 lsof 来 确定 哪些 进程 访问 了 特定 分 区 上 的 文件 。 在 列 出 了 访问 文件 的 全 部 PID 后 ， 你 融 能 够 对 每 个 PID 使 用 strace， 
找 出 具有 大 量 |/O 的 那 一 个 。 虽 然 这 种 解决 方法 有 效 ， 但 它 治标 不 治本 ， 因 为 访问 一 个 分 区 的 进程 可 能 很 多 ， 且 关联 并 分 析 每 个 
进程 的 系统 调用 也 很 费时 。 同 时 ， 这 还 可 能 错过 短 进程 ， 而 在 跟踪 进程 时 ， 还 有 可 能 严重 减 缀 它们 的 速度 。 


在 这 一 点 上 ，Linux 内 核 是 可 以 被 改进 的 。 若 能 快速 追 路 哪些 进程 产生 了 |/O， 将 使 得 诊断 |/O 性 能 相关 问题 更 加 迅速 。 


6.4 ”本 童 /小结 


本 章 介 绍 了 Linux 人 磁盘 1/O 〇 性 能 工具 ， 它 们 能 用 于 提取 关于 系统 级 (vmstat) 、 特 定 设备 (vmstat、iostat、sar) 以 及 特定 
文件 (lsof) 的 磁盘 1/O 使 用 信息 。 本 章 说 明了 不 同类 型 的 |/O 统 计 信息 ， 以 及 如 何 用 1/O 性 能 工具 从 Linux 抽 取 这 些 统计 数据 。 此 
外 ， 本 章 还 对 当前 工具 主要 的 局 限 性 和 未 来 可 发 展 的 领域 进行 了 讨论 。 


下 一 章 介绍 的 工具 将 能 够 让 你 确定 网 络 瓶 颈 的 成 因 。 


第 7 章 ”性 能 工具 : 网 络 


本 章 介绍 一 些 在 Linux 上 可 用 的 网 络 性 能 工具 。 我 们 主要 关注 分 析 单 个 设备 /系统 网 络 流量 的 工具 ， 而 非 全 网 管理 工具 。 虽 然 
在 完全 隔离 的 情况 下 评估 网 络 性 能 通常 是 无 意义 的 (节操 不 会 与 自己 通信 ) ， 但 是 ,调查 单个 系统 在 网 络 上 的 行为 对 确定 本 地 本 
置 和 应 用 程序 的 问题 是 有 帮助 的 。 此 外 ， 了 和 解 单 系统 的 网 络 流量 特性 也 有 助 于 找到 其 他 有 问题 的 系统 ， 以 及 造成 网 络 性 能 降低 的 
本 地 硬件 和 应 用 程序 错误 。 


阅读 本 章 后 ， 你 将 能 够 : 
` 确定 系统 内 以 太 网 设备 的 速度 和 双 工 设置 (mii-tool、ethtool) 。 
. 确定 流 经 每 个 以 太 网 接口 的 网 络 流量 (ifconfig、 satr、 gkrellm、iptraf、netstat、 etherape) 6 
` 确定 流入 和 流出 系统 的 流量 的 类 型 (gkrellm、iptraf、netstat、etherape) 。 
` 确定 流入 和 流出 系统 的 每 种 类 型 的 IP 流 量 (gkrellm、iptraf、etherape) 。 


` 确定 是 哪个 应 用 程序 产生 了 IP 流 量 (netstat) 。 


7.1 网络 |/O 介 绍 


Linux 和 其 他 主流 操作 系统 中 的 网 络 流量 被 抽 铺 为 一 系列 的 硬件 和 软件 层次 。 链 路 层 ， 也 束 是 最 低 一 层 ， 包含 网 络 硬 件 ， 如 
以 太 网 设备 。 在 传送 网 路 流量 时 ， 这 一 层 并 不 区 分 流量 类 型 ， 而 仅 仅 以 尽 可 能 快 的 速度 友 送 和 接收 数据 (或 帧 ) 。 


链 路 层 的 上 面 是 网 络 层 。 这 一 层 使 用 互联 网 协议 (IP) 和 网 际 控制 报 文 协议 (ICMP) 在 机 器 间 寻 址 并 路 由 数据 包 。 
1IP/ICMP 尽 其 最 大 努力 尝试 在 机 器 之 间 传 递 数据 包 ， 但 是 它们 不 能 保证 数据 包 是 否 能 真正 达到 其 目的 地 。 


网 络 层 的 上 面 是 传输 层 ， 它 定义 了 传输 控制 协议 (TCP) 和 用 户 数 据 报 协议 (UDP) 。TCP 是 一 个 可 靠 协议 ， 它 可 以 保证 消 
息 通过 网 络 送 达 ， 如 果 消 息 无 法 送 达 它 就 会 产生 一 个 错误 。TCP 的 同 级 协议 UDP， 则 是 一 个 不 可 靠 协议 ， 它 无 法 保证 信息 能 够 送 
达 (为 了 获得 最 高 的 数据 传输 速率 ) 。UDP 和 TCP 为 IP 增 加 了 “服务 ”的 概念 。UDP 和 TCP 接 收 有 编号 “端口 ”的 消息 。 按 照 惯 
例 ， 每 个 类 型 的 网 络 服务 都 被 分 配 了 不 同 的 编号 。 例 如 ， 超 文本 传输 协议 (HTTP) 通常 为 端口 80， 安 全 外 膏 (SSH) 通 弟 为 端 
口 22， 文 件 传输 协议 (FTP) 通常 为 新 口 23。 在 Linux 系 统 中 ， 文 件 /etc/services 定 义 了 全 部 的 端口 以 及 它们 提供 的 服务 类 型 


一 
oo 


最 上 一 层 为 应 用 层 。 这 一 层 包 含 了 各 种 应 用 程序 ， 它 们 使 用 下 面 各 层 在 网 络 上 传输 数据 包 。 这 些 应 用 程序 包括 : Web 服 务 
器 、SSH 客 户 凯 ， 甚 至 是 P2P 文 件 共享 客户 痕 ， 比 如 BitTorrent。 


在 Linux 内 核实 现 或 控制 的 是 最 低 三 层 ( 链 路 层 、 网 络 层 和 传输 层 ) 。 内 核 可 以 提供 每 层 的 性 能 统计 信息 ， 包 括 数据 流 经 每 
一 层 时 的 带宽 使 用 情况 信息 和 错误 计数 信息 。 本 章 介绍 的 工具 就 能 使 你 提取 并 查看 这 些 统计 信息 。 


7.1.1 链 路 层 的 网 络 流量 


在 网 络 层 次 结构 的 最 低 几 层 ，Linux 可 以 侦 测 到 流 经 链 路 层 的 数据 流量 的 速率 。 链 路 层 ， 通 剃 是 以 太 网 ， 以 帧 序列 的 形式 将 
言 息 友 送 到 网 络 上 。 即 便 是 其 上 层次 的 信息 片段 的 大 小 比 帧 大 很 多 ， 链 路 层 也 会 将 它们 分 割 为 巾 ， 册 发 送 到 网 络 上 。 数 据 帧 的 最 
大 尺寸 被 称 为 最 大 传输 单位 (MTU) 。 你 可 以 使 用 网 络 配置 工具 ， 如 ip 或 ifconfig 来 设置 MTU。 对 以 太 网 而 言 ， 最 大 大 小 一 般 
为 1500 字 节 ， 昌 然 有 些 硬件 支持 的 巨型 帧 可 以 高 达 9000 字 节 。MTU 的 大 小 对 网 络 效 率 有 直接 影响 。 链 路 层 上 的 每 一 个 帧 都 有 一 
个 小 容量 的 头 部 ， 因 此 ， 使 用 大 尺寸 的 MTU 束 提高 了 用 户 数据 对 开销 ( 头 部 ) 的 比例 。 但 是 ， 使 用 大 尺寸 的 MTU， 每 个 数据 帧 
被 损坏 或 丢弃 的 几率 会 更 高 。 对 清洁 物理 链 路 来 说 ， 大 尺寸 MTU 通 常会 带 来 更 好 的 性 能 ， 因 为 它 需要 的 开销 更 小 ; 反之， 对 嘲 
杂 的 链 路 来 说 ， 更 小 的 MTU 则 通常 会 提升 性 能 ， 因 为 ， 当 单个 帧 被 损坏 时 ， 它 要 重 传 的 数据 更 少 。 


在 物理 层 ， 帧 流 经 物理 网 络 ，Linux 内 核 可 以 收集 大 量 有 关 帧 数量 和 类 型 的 不 同 统 计数 据 : 


友信 / 接 收 一 一 如 果 一 个 帧 成 功 地 流出 或 流入 机 器 ， 那 么 它 就 会 被 计 为 一 个 已 发 送 或 已 接收 的 帧 。 
“ 销 误 一 一 有 错误 的 帧 (可 能 是 因为 网 络 电缆 坏 了 ， 或 双 工 不 匹配 ) 。 


: 去 借 一 一 被 丢弃 帧 的 (很 可 能 是 因为 内 存 或 缓冲 区 容量 小 ) 。 


 ) 蔓 出 


由 于 内 核 或 网 卡 有 过 多 的 帧 ， 因 此 被 网 络 丢弃 的 帧 。 通 第 这 种 情况 不 应 该 发 生 。 


` 帧 一 一 由 于 物理 级 问题 导致 被 丢弃 的 帆 。 其 原因 可 能 是 循环 宛 余 校 验 (CRC) 错误 或 其 他 低级 别 的 问题 。 


多 播 一 一 这 些 帧 不 直接 寻 址 到 当前 系统 ， 而 是 同时 广播 到 一 组 节点 。 
. 压缩 一 一 一 些 底层 接口 ， 如 点 对 点 协议 (PPP) 或 囊 行 线 路 网 际 协议 (SLIP) 设备 在 把 帧 发 送 到 网 络 上 之 前 ， 会 对 其 进行 


压缩 。 该 值 表示 的 就 是 被 压缩 帧 的 数量 。 


有 些 Linux 网 络 性 能 工具 能 够 显示 通过 每 一 个 网 络 设备 的 每 一 种 类 型 的 帧 数 。 这 些 工具 通 弟 需要 设备 名 ， 因 此 ， 熟 悉 Linux 如 
何 对 网 络 设备 命名 以 便 搞 清楚 哪个 名 字 代表 了 哪个 设备 是 很 重要 的 。 以 太 网 设备 被 命名 为 ethN， 其 中 ，eth0 指 的 是 第 一 个 设 
备 ，eth1 指 的 是 第 二 个 设备 ， 以 此 类 推 。 与 以 太 网 设备 命名 方式 相同 ，PPP 设 备 被 命名 为 pppN。 环 回 设备 ， 用 于 与 本 机 联网 ， 
做 售 名 为 lo。 


在 调查 性 能 问题 时 ， 非 常 关键 的 一 点 是 要 清楚 底层 物理 层 能 够 支持 的 最 大 速度 。 比 方 襄 ， 以 太 网 设备 通常 支持 多 种 速度 ， 如 
10Mbps、100Mbps， 甚 至 是 1000Mbps。 底 层 以 太 网 卡 和 基础 设施 (交换 机 ) 必须 能 控制 所 需 的 速度 。 昌 然 大 多 数 网 卡 可 以 
自动 检测 能 支持 的 最 高 速度 ， 并 进行 适当 地 自我 设置 ， 但 是 ， 如 果 一 个 网 卡 或 交换 机 设置 错误 ， 就 会 影响 到 性 能 。 如 果 不 能 达到 
更 高 的 速度 ， 以 太 网 设备 一 般 会 协商 降低 速度 ， 但 它们 仍然 是 起 作用 的 。 假 如 网 络 性 能 大 大 低 于 预期 ， 那 么 最 好 使 用 工具 
ethtool 或 mii-tool 来 检验 以 太 网 速度 是 否 设置 为 你 的 期 望 值 。 


7.1.2 ”协议 层 网 络 流量 


对 TCP 或 UDP 流 量 而 言 ，Linux 使 用 套 接 字 /并 口 来 抽 铺 两 人 台 机 器 的 连接 。 当 与 远程 机 器 连接 时 ， 本 地 应 用 程序 用 一 个 网 络 套 
接 字 来 打开 远程 机 器 上 的 一 个 端口 。 如 前 所 述 ， 常 见 网 络 服务 都 有 约定 的 端口 号 ， 因 此 ， 给 定 的 应 用 程序 束 能 连接 到 远程 机 器 的 
正确 新 口上 上。 比如， 端口 80 通 常用 于 HTTP。 在 加 载 一 个 Web 页 面 时 ， 浏 览 器 丈 连 接 到 远程 机 器 的 80 端 口上 。 远 程 机 器 上 的 
Web 服 务 器 监听 80 痛 口上 的 连接 ， 当 连接 上 友 生 时 ，Web 服 务 器 融 为 Web 页 面 的 传输 设置 该 连接 。 


Linux 网 络 性 能 工具 可 以 跟 路 流 经 特定 网 络 端 口 的 数据 量 。 由 于 每 个 服务 的 端口 号 具有 了 唯一 性 ， 因 此 有 可 能 确定 流 同 特定 服 
务 的 物理 流量 。 


7.2 网 络 性 能 工具 


本 书 介 绍 能 够 诊断 性 能 问题 的 Linux 网 络 性 能 工具 。 我 们 先 从 确定 最 底层 网 络 性 能 (物理 统计 信息 ) 的 工具 开始 ， 然 后 逐步 
增加 可 以 调查 其 上 各 层 的 工具 。 


7.2.1 mii-tool (媒体 无 关 接 口 工具 ) 

mii-tool 是 以 太 网 专用 硬件 工具 ， 主 要 用 于 设置 以 太 网 设备 ， 但 它 也 可 以 提供 有 关 当 前 设置 的 信息 。 这 个 信息 ， 诸 如 链接 束 
度 和 双 工 设置 ， 对 于 追踪 性 能 不 佳 设备 的 成 因 是 非常 有 用 。 

7.2.1.1 网络/O 性 能 相关 的 选项 

使 用 mii-tool 时 需要 根 访问 权限 。 其 调用 命令 行 如 下 : 


mii-tool [-:v] [device] 


mii-tool| 输 出 指定 设备 的 以 大 网 设置 。 如 果 没 有 指定 设备 ， 那 么 mii-tool| 束 会 显示 所 有 可 用 以 太 网 设备 的 信息 。 若 使 用 了 -Vv 
选项 ，mii-too| 将 显示 被 提供 或 协商 的 网 络 功能 的 详细 信息 、。 


7.2.1.2 ”用 法 示例 


清单 7.1 显 示 的 是 系统 上 eth0 的 配置 信息 。 第 一 行 告诉 我 们 网 络 设备 正在 使 用 100BASE-T 全 双 工 连接 。 接 下 来 的 几 行 描述 了 
机 器 网 卡 的 功能 ， 以 及 该 网 卡 检测 到 的 线路 另 一 新 网 络 设 备 的 功能 。 


清单 7.1 


[root@nohs linux-2.6.8-1.521]# /sbin/mii-tool -v eth0 
eth0: negotiated 100baseTx-FD, link ok 
product info: vendor 00:00:00, model 0 rev 0 
basic mode : autonegotiation enabled 
basic status: autonegotiation complete, link ok 
capabilities: 100baseTx-FD 100baseTx-HD 10baseT-FD 10baseT-HD 
advertising: 100baseTx-FD 100baseTx-HD 10baseT-FD 10baseT-HD flow-control 
link partner: 100baseTx-FD 100baseTx-HD 10baseT-FD 10baseT-HD 


mii-too| 提 供 了 关于 如 何 配置 以 太 网 设备 物理 层 的 底层 信息 。 


17.2.2 ethtool 

在 配置 和 显示 以 大 网 设备 统计 数据 方面 ，ethtool| 提 供 了 与 mii-tool 相 似 的 功能 。 不 过 ，ethtoo| 更 加 强大 ， 包 含 了 更 多 配置 
选项 和 设备 统计 信息 。 

7.2.2.1 网 络 MMO 性 能 相关 的 选项 


ethtool 在 使 用 时 需要 根 访 问 权 限 ， 其 调用 使 用 如 下 命令 行 : 


ethtool [device] 


ethtool 输 出 给 定 的 以 大 网 设备 的 配置 信息 。 如 果 没 有 特别 指定 设备 ，ethtool| 就 会 输出 系统 中 所 有 以 太 网 设备 的 统计 信息 。 
ethtool 的 主页 详细 说 明了 修改 当前 以 太 网 设置 的 选项 。 


7.2.2.2 ”用 法 示例 


清单 7.2 显 示 了 系统 内 eth0 的 配置 信息 。 虽 然 该 设备 支持 多 种 不 同 的 速度 和 链接 设置 ， 但 它 当 前 连接 到 的 是 一 个 全 双 
工 ，1000Mbps 的 链 路 。 


清单 7.2 


[root@scrffy tmp]# /sbin/ethtool ethg 
Settings for etho: 

Supported ports: [ TP ] 

Supported link modes: 1@baseT/Half i108baseT/Full 
100baseT/Half 100baseT/FU11 
1000baseT/Half 1000baseT1/FU1L1 

Supports auto-negotiation: Yes 

Advertised link modes: 10baseT/Half 10baseT/Ful1l 
i100baseT/Half 100baseT/FU11 
1000baseT/Half 1000baseT/Fu11 

Advertised auto-negotiation: Yes 

Speed: 1000Mb/s 

Duplex: Full 

Port: Twisted Pair 

PHYAD: 人 @ 

Transceiver: internal 

Auto-negotiation: on 

Supports Wake-on: 9 

Wake-on: d 

Link detected: yes 


ethtool| 运 行 简单 ， 它 能 迅速 提供 配置 不 当 的 网 络 设备 的 有 天 信息 。 


7.2.3 _ ifconfig (接口 配置 ) 
ifconfig 的 主要 工作 就 是 在 Linux 机 器 上 安装 和 配置 网 络 接口 。 它 还 提供 了 系统 中 所 有 网 络 设备 的 基本 性 能 统计 信息 。 
ifconfig 几 乎 在 所 有 联网 的 Linux 机 器 上 都 是 可 用 的 。 
7.2.3.1 网 络 MO 性 能 相关 的 选项 
ifconfig 用 如 下 命令 行 调用 : 
ifconfig [device] 
如 果 没 有 指定 设备 ，ifconfig 就 会 显示 所 有 活跃 的 网 络 设备 。 表 7-1 解 释 了 ifconfig 提 供 的 性 能 统计 项 。 


表 7-1 ifconfig 的 性 能 统计 信 息 


列 说 明 


RX packets db tds 
TX packets 设备 已 发 送 的 数据 包 数 

errors 发 送 或 接收 时 的 错误 数 

dropped 发 送 或 接收 时 丢弃 的 数据 包 数 

overruns Ee 和 有 足够 的 缓冲 区 来 发 送 或 接收 一 个 数据 包 的 次 数 
frame 层 以 太 网 帧 错误 的 数量 

carrier 和 质 故 障 (如 故障 电缆 ) 而 丢弃 的 数据 包 数 量 


尽管 fconfig 主 要 用 于 网 络 配置 ， 但 由 它 提 供 的 适当 数量 的 统计 信息 也 能 使 你 确定 系统 中 每 一 个 网 络 设备 的 健康 和 性 能 状 
部 。 
7.2.3.2 ”用 法 示例 


清单 7.3 显 示 了 来 自 系统 所 有 设备 的 网 络 性 能 统计 信息 。 这 里 ， 我 们 有 一 个 以 大 网 卡 (eth0) 和 一 个 环 回 (lo) 设备。 本 例 
以 太 网 卡 接收 数据 量 约 为 790Mb， 发 送 数据 量 约 为 319Mb。 


清单 7.3 


[ezolt@wintermute tmp]$ /sbin/ifconfig 

ethgo Link encap :Ethernet HWaddr 00:02:E3:15:A5:03 
inet addr:192.168.0.4 Bcast:192.168.0.255 Mask:255.255.255.0 
UP BROADCAST NOTRAILERS RUNNING _ MTU:1500 Metric:1 
RX packets:1047040 errors:@ dropped:0 overruns:0 frame:0 
TX packets:796733 errors:12 dropped:@ overruns:12 carrier:12 
collisions:@ txqueuelen:1000 
RX bytes:829403956 (790.9 Mb) TX bytes:334962327 (319.4 Mb) 
Interrupt:19 Base address:0x3000 


10 Link encap:Local Loopback 
inet addr:127.0.0.1 Mask:255.0.0.0 
UP LOOPBACK RUNNING MTU:16436 Metric:1 
RX packets:102 errors:@ dropped:0 overruns:0 frame:0 
TX packets:102 errors:0 dropped:0 overruns:0 carrier:0 
collisions:@ txqueuelen:0 
RX bytes:6492 (6.3 Kb) TX yn 6492 "9, 3 KD) 


ifconfig 提 供 的 统计 数据 显示 的 是 自 系统 启动 开始 的 累计 数值 。 如 果 你 将 一 个 网 络 设备 下 线 ， 之 后 又 让 其 上 线 ， 其 统计 数据 
也 不 会 重 置 。 如 果 你 按 规律 的 间 隅 来 运行 fconfig， 就 可 以 友 现 各 种 统计 数据 的 变化 率 。 这 一 点 可 以 通过 watch 命 令 或 shell 脚 本 
来 自动 实现 ， 这 两 种 方式 我 们 将 在 下 一 章 讨 论 。 


124 Ip 


一 些 网 络 工 具 ， 如 ifconfig， 正 在 被 淘汰 ， 取 而 代 之 的 是 新 的 命令 : ip。ip 不 仅 可 以 让 你 对 Linux 联 网 的 多 个 不 同方 面 进行 配 


置 ， 还 可 以 显示 每 个 网 络 设备 的 性 能 统计 信息 。 
7.2.4.1 网络/O 性 能 相关 的 选项 
提取 性 能 统计 数据 时 ， 用 如 下 命令 行 调用 ip: 


ip -Ss [-s] link 


如 果 你 用 上 述 选 项 调用 ip， 它 就 会 输出 系统 中 所 有 网 络 设备 的 统计 信息 ， 包 括 环 回 (lo) 设备 和 简单 互联 网 转换 (sit0) 设 
备 。 设 备 sit0 允 许 将 IPv6 的 数据 包 封 濠 到 1Pv4 的 数据 包 中 ， 并 保持 下 来 ， 这 样 可 以 缓解 IPv4 和 和 IPv6 之 间 的 转换 。 如 果 ip 中 还 有 一 
七 将 会 提供 底层 以 太 网 更 加 详细 的 统计 信息 。 表 7-2 对 ip 提 供 的 部 分 性 能 统计 信息 进行 了 说 明 。 


表 7-2 ip 的 网 络 性 能 输出 统计 信息 


列 说 明 
bytes 发 送 或 接收 的 字 节 数 
packets | 发送 或 接收 的 数据 包 数 
errors 发 送 或 接收 时 发 生 的 错误 数 
dropped | 由 于 网 卡 缺 少 资源 ， 导 致 未 发 送 或 接收 的 数据 包 数 
overruns 网 络 没 有 足够 的 缓冲 区 空间 来 发 送 或 接收 更 多 数据 包 的 次 数 
mcast | 已 接收 的 多 播 数据 包 的 数量 
carrier | 由 于 链 路 介质 故障 ( se 而 丢弃 的 数据 包 数 量 
collsns | 传送 时 设备 发 生 的 冲突 次 数 。 当 多 个 设备 试图 同时 使 用 网 络 时 就 会 发 生 冲 突 


ip 是 一 个 非常 灵活 的 Linux 网 络 配 置 工具 ， 虽 然 它 的 主要 功能 是 对 网 络 进 行 配 置 ， 但 你 也 可 以 用 它 来 提取 底层 设备 的 统计 数 
据 。 


7.2.4.2 ”用 法 示例 


清单 7.4 给 出 了 系统 中 所 有 设备 的 网 络 性 能 统计 信息 。 这 里 ,我们 有 一 个 以 太 网卡 ， 一 个 环 回 设备 ， 和 sit0 通 道 设备 。 本 例 
中 ， 以 太 网 卡 接收 数据 大 约 为 820Mb， 发 送 数据 大 约 为 799Mb。 


清单 7.4 


[ezolt@nohs ezolt]$ /sbin/ip -S link 

1: 10: <LOOPBACK,UP> mtu 16436 qdisc noqueue 
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00 
RX: bytes packets errors dropped overrun mcast 
4460 67 0 0 0 0 


TX: bytes packets errors dropped carrier collsns 
4460 67 0 0 0 0 


2: eth0; <BROADCAST,MULTICAST,UP> mtu 1500 qdisc pfifo fast qlen 1000 


link/ether 00:16:b5:59:2c:82 brd ff:ff:ffIff:ff:ff 


RX: bytes packets errors dropped overrun mcast 


799273378 920999 9 0 0 0 
TX: bytes packets errors dropped carrier collsns 
820603574 930929 9 0 0 0 


Sit@: <NOARP> mtu 1480 qdisc noop 


link/sit 0.0.0.0 brd 0.0.0.0 

RX: bytes packets errors dropped overrun mcast 

0 0 0 0 0 0 

TX: bytes packets errors dropped carrier collsns 
0 0 0 0 0 0 


与 ifconfig 非 营 相 似 的 是 ，ip 提 供 的 是 目 系 统 局 动 开始 的 总 的 系统 统计 数据 。 如 果 使 用 watch (下 一 章 讨论 ) ， 
控 这 些 数 值 是 如 何 随 着 时 间 友 生变 化 的 。 


1.2.5 sar (IV) 


前 面 的 草 节 已 


你 就 可 以 监 


经 讨论 过 ，sar 是 最 灵活 的 Linux 性 能 工具 之 一 。 它 可 以 监控 许多 不 同 的 事情 ， 归 档 统 计数 据 ， 甚 至 还 能 用 其 他 


过 
工具 可 用 的 格式 来 显示 信息 。sar 并 不 能 总 是 与 专门 领域 性 能 工具 一 样 来 提供 尽 可 能 多 的 详细 信息 ， 但 它 能 给 出 一 个 很 好 的 总 体 


概况 。 


网 络 性 


Vat | 


能 统计 信息 并 无 不 同 。 和 ip 以 及 ifconfig 一 样 ，sar 提 供 了 链 路 级 的 网 络 性 能 数据 。 但 是 ， 它 同时 还 提供 了 一 些 关 于 传 
输 层 打开 的 套 接 字数 量 的 基本 信息 。 


网 络 VO 性 能 相 天 的 选项 


sar 使 用 如 下 命令 行 来 收集 网 络 统计 信息 : 


sar [-n DEV | EDEV | Sock | FULL ] {DEVICE] [interval] [count ] 


sal 收 集 多 种 不 同类 型 的 性 能 统计 数据 。 表 7-3 解 释 了 一 些 命令 行 选项 ，sar 使 用 它们 来 显示 网 络 性 能 统计 信息 。 
表 7-3 sat 命令 行 选项 
选 项 一 明 
-n DEV 显示 每 个 设备 发 送 和 接收 的 数据 包 数 和 字 节 数 信息 
-n EDEV 显示 每 个 设备 的 发 送 和 接收 错 ee 
-n SOCK 显示 使 用 套 接 字 (TCP、UDP 和 了 RAW) 的 总 数 信息 
—n FULL 显示 所 有 的 网 络 统 计 信 息 
interval 采样 间隔 时 长 
count 采样 总 数 


表 7-4 给 出 了 sar 提 供 的 网 络 性 能 选项 。 


表 7-4 saf 网 络 性 能 统计 信息 


选 项 说 。 明 
rxpck/s 数据 包 接收 速率 | 
txpck/s 数据 包 发 送 速率 
rxbyt/s 字 广 接收 速率 
txbyt/s 字 节 发 送 速率 
rxcmp/s 压缩 包 接 收 速 率 
txcmp/s 压缩 包 发 送 速 率 
rxmcst/s 多 播 包 接收 速率 
rxerr/s 接收 错误 率 
txerr/s 发 送 错误 率 
coll/s 上 发送 时 的 以 太 网 冲突 率 
rxdrop/s 由 于 Linux 内 核 缓 冲 区 不 足 而 导致 的 接收 帧 丢弃 率 
txdrop/s 由 于 Linux 内 核 缓冲 区 不 足 而 导致 的 发 送 帆 于 茎 率 
txcarr/s 由 于 载波 错误 而 导 弄 的 发 送 帆 丢弃 率 
rxfram/s 由 于 帧 对 齐 稍 误 而 寻 致 的 接收 帧 丢弃 率 
rxfifo/s 由 于 FIFO 错误 而 导致 的 接收 帧 丢弃 率 
txfifo/s 由 于 FIFO 错误 而 导致 的 发 送 帧 丢弃 率 
totsck 当前 正在 被 使 用 的 套 接 字 总 数 
tcpsck 当前 正在 被 使 用 的 TCP 套 接 字 总 数 
udpsck 当前 正在 被 使 用 的 UDP 套 接 字 总 数 
rawsck 当前 正在 被 使 用 的 RAW 套 接 字 总 数 
ip 一 frag IP 分 片 的 总 数 


考虑 到 sar 能 收集 到 全 部 统计 信息 ， 它 确实 为 单 点 提供 了 最 系统 级 的 性 能 统计 数据 。 
7.2.5.2 ”用 法 示例 


在 清单 7.5 中 ， 我 们 查看 了 系统 中 所 有 网 络 设备 的 友 送 和 接收 统计 信息 。 玖 像 你 能 看 到 的 ， 设 备 eth0 是 最 活跃 的 。 在 第 一 个 
采样 ，eth0 每 秒 接收 的 数据 大 约 为 63000 字 节 (rxbyt/s) ， 友 送 的 数据 大 约 为 45000 字 节 (txbyt/s) 。 未 发送 或 接收 压缩 数据 
包 (txcmp、rxcmp) 。 (压缩 数据 包 通 弟 出 现在 SLIP 或 PPP 连 接 中 ) 。 


清单 7.5 


[ezolt@wintermute sysstat-5.0.2]$ sar -n DEV 1 2 
Linux 2.4.22-.1.2174.nptlsmp (wintermute.phil.org) @6 /67 /04 


21:22:29 IFACE rxpck/s txpck/s rxbyt/s txbyt/s rxcemp/s txcmp/s rxmcst/s 
21:22;30 10 0.00 @.00 .00 0.00 0@.00 8.600 @.06 


21:22:30 eth 68. 80 65,.00 63144.00 45731.80 0.00 0.00 .00 


21:22:30 IFACE rxpck/s txpck/s rxbyt/s txbyt/s rxcecmp/s txcmp/s rxmcst/s 
21:22:31 10 和 .和 @ .00 0.00 @.00 .80 0.080 0.00 
21:22:31 ethg@ 80.39 47.06 45430.39 38546.088 @.00 0.00 .80 


Average: IFACE rxpck/s txpck/s rxbyt/s txbyt/s rxcmp/s txcmp/s rxmcst/s 
Average 10 .60 @ .80 8.00 @.00 @ .00 @ .0 0.00 
Average: eth@ 74.26 -55.94 54199 .50 38063 .37 0@.80 0.00 6.00 


在 清单 7.6 中 ， 我 们 查看 了 系统 中 开放 套 接 字 的 数量 。 我 们 可 以 看 到 开放 套 接 字 以 及 TCP、RAW 和 UDP 套 接 字 的 总 数 。sar 
还 能 显示 IP 数 据 包 分 片 的 数量 。 


清单 7.6 


[ezolt@wintermute sysstat-5.0.2]$ sar -n SOCK 1 2 


Linux 2.4.22-1.2174.nptlsmp (wintermute.phil.org) 06107104 
21:32:26 totsck tcpsck Udpsck rawsck ip-frag 
eiodarar 373 118 8 0 0 
21:32:28 373 118 8 0 0 
Average ; 373 118 8 0 0 


sar 提 供 了 对 系统 性 能 的 一 个 很 好 的 概 虎 。 但 是 ， 当 我 们 要 调查 一 个 性 能 问题 时 ， 我 们 实际 上 想 要 了 解 的 是 哪 蔚 进程 或 服务 
消耗 了 特定 的 资源 。sar 不 会 提供 这 方面 的 详细 信息 ， 但 它 确 实 让 我 们 观察 到 了 整个 系统 的 网 络 M/O 统 计 信 息 。 


7.2.6 dgkrellm 


gkrelim 是 一 个 图 形 化 监视 器 ， 它 使 你 能 够 观察 到 多 种 不 同 的 系统 性 能 统计 信息 。 它 为 各 种 统计 信息 绘制 图 表 ， 包 括 CPU 使 
用 情况 、 磁 盘 l/O， 以 及 网 络 使 用 情况 。 它 可 以 通过 “主题 ”来 改变 外 观 ， 甚 至 可 以 使 用 插件 来 监控 默认 版 本 中 不 包含 的 事件 。 


gkrellm 提 供 的 信息 与 saar、ip 和 ipconfig 类 似 ， 但 与 它们 不 同 的 是 ， 它 提供 的 是 数据 的 图 形 视图 。 此 外 ， 它 还 提供 流 经 特定 
UDP 和 TCP 端口 流 量 的 有 关 人 信息。 这 是 我 们 看 到 的 第 一 个 可 以 显示 具有 不 同 网 络 市 完 消 耗 量 的 服务 的 工具 。 


7.2.6.1 ”网络 /O 性 能 相关 的 选项 
gkrellm 用 如 下 命令 行 调用 : 


gkrellm 


gkrellm 没 有 命令 行 选项 用 于 配置 其 监控 的 统计 信息 。 启 动 gkrellm 之 后 ， 所 有 的 配置 都 是 图 形 化 的 。 调 出 配置 界面 有 两 种 
方法 : 你 可 以 右键 氮 击 gkrellm 标 题 栏 并 选择 Configuration， 或 者 当 光 标 在 窗口 的 任何 位 置 时 按 下 F1。 这 两 种 操作 都 可 以 调 出 
配置 窗口 (如 图 7-1 所 示 ) 。 
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图 7-1 


图 7-2 显 示 的 是 网 络 配置 窗口 。 它 用 于 配置 哪些 统计 信息 以 及 哪些 服务 显示 在 gkrellm 的 最 终 输 出 窗口 。 
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你 可 以 将 gkrellIm 配 置 为 监控 特定 泥 围 1CP 端 口 的 活动 。 这 样 你 束 能 够 监控 服务 ， 如 HTTP 或 FTP， 使 用 的 确切 端口 ， 并 测量 


能 监控 工具 。 它 使 你 能 
来 也 比较 容易 。 


在 图 7-2 中 ， 我 们 将 gkrellm 配 置 为 监控 被 BitTorrent (BT) P2P 应 用 和 Web 服 务 器 (HTTP) 使 用 的 端口 。 
9 krell m 是 一 个 灵活 而 强大 的 图 形 化 性 小 上 月 E 


够 观察 到 当前 系统 的 执行 情况 ， 以 及 其 性 能 随时 间 的 变化 。 使 
用 gkrellm 最 困难 的 地 方 在 于 阅读 小 的 默认 文本 。 不 过 ，gkrellm 的 外 观 定制 起 来 很 容易 ， 因 此 我 们 也 可 以 推测 这 个 缺点 修正 起 
7.2.6.2 ”用 法 示例 

用 有 关 的 统计 数据 。 


如 前 所 述 ，gkrellm 可 以 监控 多 种 不 同类 型 的 事件 。 在 图 7-3 中 ， 我 们 对 输出 进行 了 选择 ， 因 此 只 显示 了 与 网 络 流量 及 其 使 


从 图 7-3 中 可 以 看 到 ， 顶 部 的 两 个 图 是 端口 的 使 用 市 之 (BT 和 HTTP) ， 端 口 已 经 在 配置 部 分 进行 了 设置 ， 底 部 的 两 个 图 则 
分 别 是 两 个 设备 (eth0 和 lo) 的 统计 数据 。 图 中 可 见 ， 有 少量 BitTorrent (BT) 流量 ,但 是 没有 有 Web 服务 器 流量 (HTTP) 。 以 


太 网 设备 eth0 之 前 有 一 些 大 的 活动 ， 但 是 现在 已 经 平静 下 来 。eth0 中 较 浅 的 阴影 部 分 表示 的 是 接收 的 字 节 数 ， 而 较 深 的 阴 
分 表示 的 是 友 送 的 字 忆 数 。 
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图 7-3 


gkrellm 是 一 个 功能 强大 的 图 形 化 工具 ， 利 用 它 可 以 一 眼 融 判断 出 系统 的 状态 。 


7.2.7 iptraf 
iptraf 是 一 个 实时 网 络 监控 工具 。 它 提供 了 相当 多 的 模式 来 监控 网 络 接口 和 流量 。iptraf 是 一 种 控制 谷 应 用 程序 ， 但 其 用 户 
界面 则 是 基于 光标 的 一 组 菜单 和 窗口 。 


与 本 章 前 面 所 述 其 他 工具 一 样 ，iptraf 可 以 提供 有 关 每 个 网 络 设备 太 达 帧 速率 的 信息 。 同 时 ， 它 还 能 够 显示 TCP/IP 数 据 包 的 
类 型 和 大 小 信息 ， 以 及 哪些 端口 被 用 于 网 络 济 量 。 


7.2.7.1 网 络 /O 性 能 相关 的 选项 
iptraf 用 如 下 命令 行 调用 : 


iptraf [-d interface] [-S interface] [-t <minutes>] 


如 果 调 用 iptraf 时 不 市 参数 ， 融 会 显示 一 个 菜单 ， 让 你 选择 监控 界面 以 及 想 要 监控 的 信息 类 型 。 表 7-5 对 命令 行 选 项 进行 了 
说 明 ， 这 些 选 项 用 于 观察 特定 接口 或 网 络 服务 上 的 网 络 流量 。 


表 7-5 iptraf 命 令 行 选项 


、 


选 项 说 明 
-d interface | 接口 的 详细 统计 信息 ， 包 括 : 接收 信息 、 发 送信 息 以 及 错误 率 信息 
-Ss interface | 关于 接口 上 哪些 IP 端口 正在 被 使 用 ， 以 及 有 多 少 字 书 流 经 它们 的 i 信息 
-t <minutes> ] iptraf 退出 前 运行 的 分 钟 数 


iptraf 还 有 更 多 模式 和 配置 选项 。 详 细 信息 请 参阅 其 附 市 文档 。 
7.2.7.2 用 法 示例 
当 用 如 下 命令 行 调用 iptraf 时 ， 它 创建 的 输出 如 图 7-4 所 示 : 


[root@wintermute tmp]# iptraf -d eth® -t 1 


这 条 命令 指定 iptraf 显 示 以 大 网 设备 eth0 的 详细 信息 并 在 运行 1 分 钟 后 退出 。 此 例 中 ， 我 们 可 以 看 到 网 络 设备 eth0 的 接收 速 
率 为 186.8kbps， 发 送 速 率 为 175.5kbps。 
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图 7-4 
图 7-5 所 示 的 是 下 一 条 命令 ， 它 要 求 iptraf 显 示 每 个 UDP 和 TCP 尊 口上 的 网 络 流量 信息 。 调 用 命令 如 下 : 


[root@wintermute etherape-0.9.01]# iptraf -S eth@ -t 10 


因为 常用 服务 的 TCP 和 和 UDP 端口 是 固定 的 ， 所 以 ， 你 可 以 利用 这 些 信息 来 确定 每 个 服务 处 理 了 多 少 流量 。 图 7-5 显 示 ， 有 
29kb 的 HTTP 数 据 从 eth0 发 送出 来 ， 有 25kb 则 被 其 接收 。 
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图 7-5 


由 于 iptraf 是 基于 控制 侣 的 应 用 程序 ， 因 此 ， 它 不 需求 X 服 务 器 或 X 服 务 器 库 。 即 使 iptraf 不 能 用 鼠标 来 控制 ， 它 也 是 易于 使 
用 和 配置 的 。 


7.2.8 netstat 


netstat 是 一 种 基本 的 网 络 性 能 工具 ， 它 几乎 出 现在 每 一 个 联网 的 Linux 机 器 上 。 可 以 用 它 抽取 的 信息 包括 : 当前 正在 使 用 的 
网 络 套 接 字 的 数量 和 类 型 ， 以 及 有 关 流 入 和 流出 当前 系统 的 UDP 和 TCP 数 据 包 数量 的 特定 接口 统计 数据 。 它 还 能 将 一 个 套 接 字 回 
溯 到 其 特定 进程 或 PID， 这 在 试图 确定 哪个 应 用 程序 要 对 网 络 流量 负责 时 是 很 有 用 的 。 


7.2.8.1 ”网络 |/O 性 能 相关 的 选项 
netstat 用 如 下 命令 行 调 用 : 
netstat [-p] [-c] [-interfaces=<name>] [-S] [-t] [-u] [-w] 
如 果 netstat 调 用 时 不 带 任何 参数 ， 它 将 显示 系统 范围 内 的 套 接 字 使 用 情况 以 及 Internet 域 和 UNIX 域 套 接 字 的 信息 。 


(UNIX 域 套 接 字 用 于 本 机 的 进程 通信 。) 为 了 能 检索 所 有 其 可 以 显示 的 统计 信息 ， 需 要 从 根 目录 运行 hetstat。 表 7-6 中 的 命令 


行 选项 可 以 用 于 修改 netstat 显 示人 信息 的 类 型 。 


表 7-6 ”netstat 命令 行 选项 


选 项 说 明 
-p | “给 出 打开 每 个 被 显示 套 接 字 的 PID/ 程序 名 
-Cc 每 秒 持续 更 新 显示 信息 
—-—interfaces=<name> 显示 指定 接口 的 网 络 统 计 信 息 
--statistics|-s IP/UDPVICMP/TCP 统计 信息 
--tcp|-t 仅 显示 TCP 套 接 字 相关 信息 
--udp |-u 仅 显 示 UDP 套 接 字 相关 信息 
——raw|-—w 仅 显 示 RAW 套 接 字 相 关 信 息 (IP 和 ICMP) 


netstat 还 可 以 使 用 其 他 未 在 表 中 列 出 的 命令 行 选 项 ， 更 多 信息 参见 netstat 帮 助手 册 。 
7.2.8.2 ”用 法 示例 


清单 7.7 要 求 netstat 显 示 活 路 的 TCP 连 接 并 持续 更 新 该 信息 。 每 一 秒 netstat 都 将 显示 新 的 TCP 网 络 统计 数据 。netstat 不 人 允 
许 设 置 监控 时 长 ， 因 此 如 果 被 杀 死 或 中 断 (Ctrl-C) ， 它 惑 只 能 停止 。 


清单 7.7 


[root@wintermute ezolt]# netstat -t+ -c 


Active Internet connections (w/o servers) 


Proto Recv-Q Send-Q Local Address Foreign Address State 

tcp @ @ 192.168.0.4:1023 fas.harvard.edu:ssh ESTABLISHED 
tecp @ @ 192 .168.0.4:32844 216.239 .39.147:http TIME WAIT 
tcp @ @ 192,168.0.4:;32843 216.239,39,147:http TIME WAIT 
tcep @ @ 192.168.0.4:32853 skaiste.elekta.lt:http ESTABLISHED 
Active Internet connections (W/o servers) 

Proto Recv-Q Send-Q Local Address Foreign Address State 

tcp 0 @ 192.168.0.4:1023 fas.harvard.edu:ssh ESTABLISHED 
tcp 0 0 192.168.0.4:32844 216.239.39.147:http TIME WAIT 
tcp 0 0 192.168.0.4:32843 216.239.39.147:http TIME WAIT 
tcp 0 0 192.168.0.4:32853 skaiste.elekta.lt:http ESTABLISHED 


清单 7.8 再 次 要 求 netstat 显 示 TCP 套 接 字 的 信息 ， 但 是 ， 这 一 次 我 们 还 要 求 它 给 出 与 该 套 接 字 相 关 的 程序 。 本 例 中 ， 我 们 可 
以 看 到 应 用 程序 SSH 和 和 mozilla-bin 发 起 了 TCP 连 接 。 


清单 7.8 


[root@wintermute ezolt]# netstat -t -p 


Active Internet connections (w/o servers) 


Proto Recv-Q Send-.Q Local Address Foreign Address State PID/Program name 
tcp 0 0 192.168.0.4:1023 fas ,harvard .edu:Ssh ESTABLISHED 1463/ssh 

tcp 0 0 192 .168.0.4:32844 216 .239 .39.147:http TIME_WAIT 

tcp 0 0 192 .168.0.4:32843 216.239 .39.147:http TIME_WAIT 

ey 0 0 192 .168.0.4:32853 skaiste.elekta,1lt:http ESTABLISHED 1291/mozi1lla-biln 


清单 .9 要求 netstat 提 供 局 动 后 系统 已 接收 的 UDP 流量 统计 信息 。 


清单 7.9 


[root@wintermute ezolt]# netstat -s -u 
Udp: 
125 packets received 
0 packets to Unknown port recelved . 
0O packet receive errors 


152 packets sent 


清单 7.10 要 求 netstat 提 供 流 经 接口 eth0 的 网 络 流量 的 相关 信息 。 
清单 7.10 


[Iroot@wintermute ezolt]# netstat -interfaces=eth® 
Kernel Interface table 
Iface MTU Met RX-OK RX-ERR RX-DRP RX-OVR TX-OK TX-ERR TX-DRP TX-OVR Flg 


eth@ 1500 8 S2713 @ @ 8 13711 1 @ 1 BNRU 


netstat 提 供 了 大 量 的 ， 与 运行 的 Linux 系 统 的 套 接 字 和 接口 相关 的 网 络 性 能 统计 信息 。 它 是 唯一 能 将 被 使 用 套 接 字 映射 回 其 
使 用 者 进程 PID 的 网 络 性 能 工具 ， 因 此 ， 它 是 非常 有 用 的 ，。 


1.2.9 etherape 
etherape (基于 Windows 的 网 络 工 具 etherman 的 双关 语 ) 为 当前 网 络 流量 提供 了 可 视 化 信息 。 默 认 情 况 下 ， 它 观察 的 是 
流 经 网 络 的 全 部 网 络 流量 ， 而 不 只 是 当前 机 器 收发 的 那些 包 。 不 过 ， 它 也 可 以 被 配置 为 仅 显 示 当 前 机 器 的 网 络 信息 。 


etherape (界面 和 文档 ) 不 够 完美 ， 但 它 提 供 了 独一无二 的 视图 来 显示 网 络 是 如 何 连接 的 、 被 请 求 服 务 的 类 型 ， 以 及 哪些 
节点 请 求 了 服务 。 在 ehterape 创 建 的 图 中 ， 节 点 代表 的 就 是 网 络 上 的 系统 。 通 信 的 节点 之 间 用 线 连 接 ， 节 点 间 网 络 流量 越 大 则 
线 的 规模 也 越 大 。 当 某 个 系统 的 网 络 使 用 量 增加 时 ， 代 表 访 系统 的 圆圈 也 会 变 大 。 不 同系 统 乙 间 的 连续 用 不 同 的 颜色 来 区 分 两 者 
之 间 使 用 的 通信 协议 。 


7.2.9.1 网络 I/O 性 能 相关 的 选项 
etherape 利 用 libpcap 库 来 捕捉 网 络 包 ， 因 此 ， 它 必须 作为 根 用 户 运行 。etherape 用 如 下 命令 行 调用 : 


etherape [-n] [-i <interface name>] 


表 7-7 解 释 了 部 分 命令 行 选项 ， 它 们 可 以 用 来 改变 etherape 监 控 的 接口 ， 或 者 决定 是 否 在 每 个 节点 上 显示 解析 主机 名 。 
表 7-7 etherape 命 令 行 选项 


选 项 说 明 


-=n， 一 ~nunmer1ic 仅 显 示 主 机 的 了 IP 号 ， 不 显示 解析 名 


一 T， 一 一 interface=<interface name> 指定 将 要 监控 的 接口 


总 之 ，etherape 的 文档 相当 少 。etherape 说 明 页 给 出 了 一 些 可 以 改变 其 外 观 和 行为 的 命令 行 ， 但 是 ， 最 好 的 学 习 方 法 就 是 
使 用 它 。 一 般 说 来 ，etherape 是 网 络 可 视 化 的 相当 不 错 的 方法 。 
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图 7-0 


图 7-6 显 示 的 是 etherape 对 一 个 相对 简单 的 网 络 的 监控 。 如 果 我 们 匹配 一 下 协议 的 颜色 与 最 大 圆圈 的 颜色 ， 我 们 会 及 现 诅 节 
扎 产 生 了 大 量 的 SSH 流 量 。 从 图 上 来 看 ， 要 确定 哪个 书 点 导 怪 了 这 些 SSH 流 量 是 很 困难 的 。 虽 然 没 有 显示 ， 如 果 我 们 双击 这 个 大 
圆圈，etherape 束 会 新 建 一 个 窗口 来 显示 与 该 流量 相关 的 古 点 的 统计 信息 。 我 们 可 以 用 这 些 信息 来 调查 网 络 流量 的 每 个 生成 者 
以 及 它们 的 节点 名 称 。 


etherape 的 输出 会 周期 性 的 更 新 。 如 果 网 络 流量 友 生 了 变化 ， 则 图 形 丈 会 更 新 。 观 察 网 络 流量 友 现 它 是 如 何 使 用 的 ， 以 及 
如 何 随 时 间 变 化 ， 是 一 件 非 常 有 趣 的 事情 。 


本 草 的 主要 内 容 是 如 何 使 用 Linux 网 络 性 能 工具 来 监控 从 奔 层 网 络 接口 到 高 层 应 用 ， 流 经 整个 系统 的 网 络 流量 。 本 草 首先 介 
绍 的 工具 可 以 查询 当前 物理 链接 设置 (mii-tool、ethtool) ， 以 及 监控 流 经 底层 接口 数据 包 的 类 型 和 数量 (ifconfig、ip、 
sar、gkrellm、iptraf、netstat、etherape) 。 接 着 介绍 的 工具 可 以 显示 不 同类 型 的 IP 流 量 (gkrellm、iptraf、netstat、 


etherape) 和 每 种 流量 的 数量 (gkrellm、iptraf、etherape) 。 本 章 还 介绍 了 一 种 工具 (netstat) 用 来 将 IP 套 接 字 的 使 用 映射 
到 接收 /发 送 每 种 类 型 流量 的 进程 上 上。 最后， 本 章 给 出 了 一 个 网 络 可 视 化 工具 ， 它 可 以 将 流 经 网 络 的 数据 类 型 和 数量 与 其 流 经 节 
扣 之 则 的 关系 可 视 化 (etherape) 。 


下 一 章 将 会 介绍 几 个 常用 的 Linux 工 具 ， 它 们 能 让 性 能 工具 的 使 用 变 得 更 加 容易 。 这 些 工具 本 身 不 是 性 能 工具 ,， 但是， 它们 
使 得 使 用 性 能 工具 变 得 更 加 容易 接受 。 同 时 ， 它 们 有 助 于 把 工具 得 到 的 结果 进行 可 视 化 和 分 析 ， 并 且 还 可 以 把 更 多 的 重复 性 任务 
进行 目 动 化 。 


本 草 介 绍 一 些 在 Linux 系 统 上 可 用 的 实用 程序 ， 它 们 能 够 加 强 性 能 工具 的 有 效 性 和 可 用 性 。 实 用 工具 本 身 不 是 性 能 工具 , 但 
是 当 它 们 与 性 能 工具 一 起 使 用 时 ， 它 们 可 以 帮助 完成 如 下 功能 : 目 动 执行 繁琐 的 任务 、 分 析 性 能 统计 数据 ， 以 及 创建 性 能 工具 友 
好 的 应 用 程序 。 


阅读 本 草 后 ， 你 将 能 够 : 

" 定期 显示 并 收集 性 能 数据 (bash、watch) 。 

记录 性 能 调查 过 程 中 所 有 的 命令 以 及 显示 的 输出 (tee、sctipt) 。 
“ 导入 、 分 析 性 能 数据 并 将 其 图 形 化 (gnumeric) 。 

“ 确定 应 用 程序 使 用 的 库 (ldd) 。 

确定 链接 库 中 有 哪些 函数 (objdump) 。 

. 研究 应 用 程序 的 运行 时 特征 (gdb) 。 


- 创建 性 能 工具 /调试 友好 的 应 用 程序 (gcc) 。 


8.1 性 能 工具 助手 

Linux 有 着 丰富 的 工具 ， 这 些 工具 一 起 使 用 比 起 单个 使 用 之 和 的 功能 更 强大 。 性 能 工具 也 是 一 样 的 ， 虽 然 可 以 单独 使 用 ， 但 
是 它们 与 其 他 Linux 工 具 结合 起 来 就 能 够 显著 提升 其 有 效 性 和 易 用 性 。 
8.1.1 目 动 执行 和 记录 命令 


如 同 前 面 章 节 所 述 ， 性 能 调查 中 最 有 价值 的 步骤 之 一 融 是 保 仓 在 调查 过 程 中 友 出 的 命令 和 产生 的 结果 。 这 使 得 你 可 以 在 之 后 


对 它们 进行 回顾 并 寻求 新 的 见解 。 为 了 帮助 实现 这 个 目的 ，Linux 提 供 了 两 个 命令 : tee 和 script， 前 者 能 将 工具 的 输出 保存 为 文 
件 ， 后 者 能 记录 每 一 个 按键 和 屏幕 上 的 每 一 个 输出 。 这 些 信息 可 以 保存 下 来 ， 便 于 之 后 查看 或 者 创建 脚本 来 自动 执行 测试 。 


自动 执行 命令 很 重要 ， 因 为 它 可 以 减少 出 错 的 机 会 ， 使 你 在 思考 问题 时 不 需 记 住所 有 的 细节 。 在 你 一 次 性 键入 又 长 又 复杂 的 
命令 行 之 后 ，bash shell 和 watch 命 令 都 可 以 让 你 周期 性 地 自动 执行 这 些 命令 。 在 你 保证 了 命令 行 的 正确 性 后 ，bash 和 watch 能 
够 周期 性 地 自动 执行 它们 ， 不 需要 再 次 键入 。 


8.1.2 ”性 能 统计 信息 的 绘图 与 分 析 
除了 记录 与 自动 化 工具 之 外 ，Linux 还 提供 了 强大 的 分 析 工具 帮助 你 理解 性 能 统计 数据 的 含义 。 尽 管 大 多 数 性 能 工具 可 以 把 
性 能 统计 数据 输出 为 文本 ， 但 是 想 要 发 现 其 中 的 模式 和 随时 间 变 化 的 趋势 并 不 总 是 件 容易 的 事 儿 。Linux 提 供 的 gnumeric 电 子 表 


格 很 强大 ， 它 可 以 对 性 能 数据 进行 导入 、 分 析 和 绘图 。 当 你 绘制 数据 图 时 ， 性 能 问题 的 原因 可 能 会 变 得 明晰 ， 或 者 至 少 能 揭示 调 
碍 的 新 角度 。 


8.1.3 ”调理 应 用 程序 使 用 的 库 


还 有 一 些 Linux 的 工具 能 使 你 确定 应 用 程序 使 用 了 哪些 库 ， 以 及 显示 给 定 库 提供 的 所 有 函数 。1dd 命 令 给 出 一 个 特定 应 用 程序 
使 用 的 全 部 共享 库 的 列表 。 人 在 你 想 要 跟踪 被 应 用 程序 使 用 的 库 的 数量 和 位 置 时 ， 这 个 命令 很 有 用 。Linux 中 还 有 一 个 命令 
objdump， 它 可 以 在 指定 库 或 应 用 程序 中 搜索 并 显示 其 提供 的 全 部 冰 数 。ltrace 只 能 给 出 一 个 应 用 程序 调用 消 数 的 名 称 ， 但 是 结 
合 命令 Idd 和 objdump， 你 就 能 够 利用 Itrace 的 输出 来 确定 指定 函数 属于 哪个 库 。 


8.1.4 ”创建 和 调试 应 用 程序 

最 后 ，Linux 还 为 你 提供 了 能 够 创建 性 能 工具 友好 型 应 用 程序 的 工具 ， 以 及 交互 式 调试 和 调查 运行 中 应 用 程序 属性 的 工具 。 
GNU 编 译 器 集 (gcc) 可 以 在 应 用 程序 中 插入 调试 信息 ， 以 帮助 oprofile 找 出 某 个 具体 性 能 问题 对 应 的 代码 行 和 源 文 件 。 此 
外 ，GNU 调 试 器 (gdb) 还 可 以 用 来 得 找 被 各 种 性 能 工具 默认 不 可 得 的 应 用 程序 的 运行 时 信息 。 


8.2 工具 


本 节 讨 论 的 工具 一 起 使 用 时 ， 可 以 极 大 地 提高 前 面 草 市 介绍 的 性 能 工具 的 有 效 性 和 易 用 性 。 


8.2.1 bash 


bash 是 默认 的 Linux 命 令 行 shell， 在 你 每 次 与 Linux 命 令 行 交 互 时 ， 最 有 可 能 使 用 它 。bash 通 常 有 一 个 功能 强大 的 脚本 语言 


来 创建 shell 脚 本 。 不 过 这 个 脚本 语言 也 可 以 从 命令 行 调用 ， 从 而 使 你 企 性 能 调理 过 程 中 ， 能 轻松 地 将 一 些 比 较 繁 琐 的 任务 进行 
目 动 化 。 


8.2.1.1 ”性 能 相关 的 选项 


bash 有 一 组 命令 可 以 一 起 使 用 ， 来 周期 性 地 运行 特定 命令 。 大 多 数 Linux 用 户 都 把 bash 作 为 默认 的 shell， 因 此 ， 只 要 登录 
到 一 台 机 器 或 打开 一 个 终 问 束 会 出 现 bash 提 示 。 如 果 你 没有 使 用 bash， 也 可 以 键入 bash 来 调用 它 。 


有 了 bash 命 令 提示 符 后 ， 你 可 以 输入 一 系列 的 bash 脚 本 命令 来 自动 连续 地 执行 特定 命令 。 在 使 用 特定 命令 周期 性 提取 性 能 
统计 数据 的 情况 下 ， 这 个 功能 非常 有 用 。 表 8-1 给 出 了 这 些 脚本 选项 。 


表 8-1 bash 运行 时 脚本 选项 


选 项 说 明 
while condition 条 件 为 假 时 执行 循环 
do | 表示 循环 开始 
done | 表示 循环 结束 


bash 极 其 灵活 ， 它 记录 在 bash 手 册 中 。 昌 然 bash 非 党 复杂 ， 但 是 在 使 用 它 乙 前 并 不 需要 完全 擎 握 它 。 
8.2.1.2 ”用 法 示例 


虽然 有 些 性 能 工具 ， 如 vmstat 和 和 sar， 能 周期 性 地 更 新 性 能 统计 信息 ， 但 是 其 他 的 命令 ， 比 如 ps 和 和 ifconfig 则 不 能 。bash 可 
以 调用 诸如 ps 或 ifconfig 命 令 来 周期 性 地 显示 它们 的 统计 数据 。 例 如 ， 在 清单 8.1 中 ， 我 们 要 求 bash 在 条 件 为 true 时 执行 while 循 
环 。 由 于 true 命 令 思 是 为 真 ， 因 此 这 个 while 循 环 永远 都 不 会 结束 。 接 着 ， 在 do 命令 后 局 动 每 次 达 代 之 后 都 要 执行 的 命令 ， 这 些 
命令 要 求 bash 休 眠 1 秒 钟 ， 然 后 运行 fconfig 来 抽取 eth0 控 制 器 的 性 能 信息 。 不 过 ， 我 们 只 天 心 接 收 数据 包 ， 因 此 ， 我 们 用 grep 
搜索 并 显示 字符 串 为 “RX packets” 的 ifconfig 输 出 。 最 后 ,执行 done 命 令 来 告诉 bash 循 环 完成 。 由 于 true 命 令 总 是 返回 真 ， 
所 以 ， 该 循环 将 一 直 执 行 直 到 用 组 合 键 <Ctrl-C> 终 止 它 。 


清单 8.1 


[ezolt@wintermute tmp]$ while true; do Sleep 1; /sbin/ifconfig eth@ | grep 
"RX packets" ; done; 


RX packets:;2256178 errors:0 dropped:0 overruns:0 frame: 
RX packets:2256261 errors:@ dropped:0 overruns:0 frame: 
RX packets:2256329 errors:@ dropped:0 overruns:0 frame: 


RX packets:2256415 errors:@ dropped:0 overruns:0@ frame: 


SS SS 人 © eS © 


RX packets:2256459 errors:@ dropped:0 overruns:0 frame: 


利用 清单 8.1 的 bash 脚 本 ， 可 以 查看 到 按 秒 更 新 的 网 络 性 能 统计 信息 。 同 样 的 循环 还 可 以 用 于 监控 其 他 的 事件 ， 只 要 将 
fconfig 命 令 修 改 为 其 他 的 命令 即 可 ， 而 通过 修改 休眠 数值 也 能 够 改变 更 新 时 间 间 隅 。 这 个 简单 的 循环 容易 直接 人 在 命令 行 中 键 
入 ， 并 且 能 够 目 动 显示 任何 你 感 兴 趣 的 性 能 统计 数据 。 


8.2.2 tee 


tee 是 一 个 简单 的 命令 ， 可 以 将 命令 的 标准 输出 保存 为 文件 并 同时 进行 显示 。 在 想 要 保存 并 同时 查看 性 能 工具 输出 的 时 
候 ，tee 是 很 有 帮助 的 。 比 如 ， 正 在 监控 一 个 实时 系统 的 性 能 统计 信息 的 同时 ， 保 存 这 些 数据 以 备 将 来 对 它们 进行 分 析 。 


8.2.2.1 性 能 相关 的 选项 
tee 的 调用 命令 行 如 下 : 


<command> | tee [-al] [file] 


tee 获 取 由 <command> 提 供 的 输出 ， 在 将 其 保存 到 指定 文件 的 同时 也 显示 到 标准 输出 设备 。 如 果 特别 指定 了 -a 选项 ， 则 
tee 会 将 输出 添加 到 文件 上 ， 而 不 是 覆土 文件 。 


8.2.2.2 ”用 法 示例 


清单 8.2 展 示 了 用 tee 来 记录 vmstat 的 输出 。 如 你 所 网，tee 显 示 了 vmstat 生 成 的 输出 ， 并 同时 将 其 保存 到 文 
件 /tmp/vmstat_out。 保 存 vmstat 的 输出 能 让 我 们 在 将 来 的 时 间 里 对 性 能 数据 进行 分 析 或 绘图 。 


清单 8.2 


[ezolt@localhost book]$ vmstat 1 5 | tee /tmp/vmstat out 


procs --------…-- memory---------- --- SWap-- ----- io0---- -- SyStem-- ---- cpu 
r b swpd free buff cache Si SO bi bo in cs US Sy id wa 
2 0 135832 3648 16112 95236 2 3 15 14 39 194 3 1 92 4 
0 0 135832 4480 16112 95236 0 0 0 0 1007 1014 7 291 0 
1 0 135832 4480 16112 95236 0 0 0 0 1002 783 6 292 0 
@ 0 135832 4480 16112 95236 0 0 0 0 1005 828 5 293 0 
0 0 135832 4480 16112 95236 0 0 0 0 1056 920 7 390 0 


tee 命 令 很 简单 ， 但 由 于 它 能 轻松 地 记录 指定 性 能 工具 的 输出 ， 因 此 它 的 能 力也 是 非常 强大 的 。 


8.2.3 script 


script 命 令 用 于 将 一 个 shell 会 话 过 程 中 产生 的 全 部 输入 和 输出 保存 为 文本 文件 。 这 个 文本 文件 在 将 来 既 可 以 用 来 重 现 被 执行 
的 命令 也 可 以 用 来 查看 结果 。 在 调查 性 能 问题 时 ， 准 确 记录 被 执行 命令 是 很 有 用 的 ， 因 为 你 可 以 在 之 后 的 时 间 里 查看 执行 过 的 测 
试 。 拥 有 被 执行 命令 的 记录 丈 意 味 着 在 调查 不 同 的 问题 时 ， 你 还 可 以 简单 地 对 命令 行进 行 竞 切 和 粘贴 。 此 外 ， 记 录 性 能 结果 也 是 
很 有 帮助 的 ， 这 样 你 束 可 以 在 将 来 查看 这 些 记录 以 寻求 友 现 和 解决 问题 的 新 视角 。 


8.2.3.1 性 能 相 天 的 选项 


script 是 一 个 相对 简单 的 命令 。 在 执行 的 时 候 ， 它 会 局 动 一 个 新 的 shell， 并 记录 下 这 个 shell 和 存续 期 间 所 有 的 键盘 动作 和 输 
入 ， 以 及 生成 的 输出 ， 并 将 它们 保存 到 文本 文件 。script 的 调用 命令 行 如 下 所 示 : 


script {[-a] [-t] {file] 


默认 情况 下 ，script 把 所 有 的 输出 都 放 到 名 为 typescript 的 文件 中 ， 除 非 你 特别 指定 其 他 的 文件 。 表 8-2 给 出 了 一 些 script 的 


说 明 
= 向 文件 添加 脚本 输出 ， 而 不 是 覆盖 文件 
一 t 增加 了 计时 信息 ， 即 每 个 输出 /输入 之 间 的 时 间 量 。 该 项 输出 显示 的 字符 数 ， 以 及 
每 组 字符 显示 的 时 间 间 隔 
本 下 输出 文件 的 名 称 


提醒 : script 字 面 上 的 意思 是 捕捉 发 送 到 屏幕 的 每 一 种 类 型 的 输出 。 但 是 ， 如 果 有 彩色 或 加 粗 的 输出 ， 束 会 在 输出 文件 中 显 
示 为 esc 字 符 。 这 些 字符 会 明显 让 输出 变 得 混乱 ， 因 此 一 般 不 怎么 有 用 。 不 过 ， 如 果 将 TERM 环 境 变 量 设置 为 dumb (在 基于 csh 
的 shell 中 用 setenv TERM dumb， 在 基于 sh 的 shell 中 用 export TERM=dumb) ， 应 用 程序 就 不 会 输出 转 义 字符 。 这 就 使 得 输 


子 付 。 
出 具有 更 好 的 可 读 性 。 
此 外 ，script 提 供 的 计时 信息 也 会 扰乱 输出 。 昌 然 自 动 生成 计时 信息 是 有 用 的 ， 但 是 更 方便 的 做 法 不 是 使 用 script 的 计时 ， 
而 是 直接 用 前 面 章节 介绍 的 time 命 令 来 对 重要 命令 进行 计时 。 
8.2.3.2 ”用 法 示例 
如 前 所 述 ， 如 果 将 终端 设置 为 dumb， 会 得 到 可 读 性 更 好 的 script 输 出 。 其 实现 方法 是 使 用 如 下 命令 行 : 
[ezolt@wintermute manuscript]$ export TERM=dumb 


然后 ， 正 式 司 动 script 命 令 。 清 单 8.3 显 示 的 是 用 输出 文件 ps output 局 动 的 script。script 会 持续 记录 会 话 ， 直 到 用 exit 命 令 
或 按 下 <Ctrl-D> 组 合 键 退出 该 shell。 


清单 8.3 


[ezolt@wintermute manuscript]$ Script ps output 
Script started, file is ps output 
[ezolt@wintermute manuscript]$ ps 

PID TTY TIME CMD 
4285 pts/1 00:00:00 bash 
4413 pts/1 00:00:00 ps 


[ezolt@wintermute manuscript]$ Script done, file is ps output 


接 下 来 ， 在 清单 8.4 中 可 以 查看 由 script 记 录 下 的 输出 。 如 你 所 见 ， 其 中 包含 了 所 有 的 命令 以 及 生成 的 全 部 输出 。 


清单 8.4 


[ezolt@wintermute manuscript]$ cat ps output 
Script started on Wed Jun 16 20:43:35 2004 
[ezolt@wintermute manuscript]$ ps 


PID TTY TIME CMD 
4285 pts/1 00:00:00 bash 


4413 pts/1 00:00:00 ps 
[ezolt@wintermute manuscript]$ 


Script done on Wed Jun 16 20:43:41 2004 


script 是 一 个 非常 有 用 的 命令 ， 用 来 记录 会 话 过 程 中 所 有 的 交互 。 与 现代 硬盘 容量 相 比 ，script 产 生 的 文件 非常 小 。 记 录 性 
能 调查 会 话 ， 并 将 其 保存 下 来 以 备 将 来 查看 一 直 都 是 一 个 很 棒 的 主意 。 往 最 坏 的 情况 考虑 ， 它 会 浪费 一 点 点 精力 和 磁盘 空间 来 记 
录 会 话 。 往 最 好 的 情况 考虑 ， 被 保存 的 会 话 可 以 在 之 后 的 时 间 查 看 ， 而 不 需要 重新 运行 该 会 话 被 记录 下 的 命令 。 


8.2.4 watch 


默认 情况 下 ，watch 命 令 会 每 秒 运 行 一 条 命令 并 将 其 输出 显示 a 到 屏幕 上 。 与 那些 不 能 周期 性 地 显示 更 新 结果 的 性 能 工具 一 起 
工作 时 ，watch 能 发 挥 其 作用 。 比 如 ， 有 些 工具 ， 如 ifconfig 和 和 ps， 显示 的 是 当前 性 能 统计 数据 ， 然 后 退出 。 由 于 watch 能 周期 
性 的 执行 合 令 并 显示 其 输出 ， 因 此 ， 通 过 观看 屏幕 残 可 以 友 现 哪些 统计 数据 友 生 了 变化 ， 以 及 它们 的 变化 速率 。 


8.2.4.1 性 能 相关 的 选项 
watch 用 如 下 命令 行 调用 : 
watch [-d[=cumulative]] [-n sec] <command> 
如 果 调 用 的 时 候 不 带 参数 ，watch 只 会 按 秒 显示 给 定 命令 的 输出 ， 直 到 你 中 断 这 个 过 程 。 默 认输 出 通常 很 难 发 现 一 屏 信 息 与 


另 一 屏 信息 的 差异 ， 因 此 ，watch 提 供 了 选项 来 突出 显示 每 个 输出 之 间 的 不 同 。 这 样 更 容易 发 现 每 个 采样 之 间 的 输出 差异 。 表 8- 
3 对 watch 可 接受 命令 行 选项 进行 了 说 明 。 


选 项 说 明 


突出 显示 样本 之 间 变 化 的 输出 。 如 果 使 用 了 选项 cumulative， 那 么 一 个 域 
—d[=cumulative] 


突出 显示 的 条 件 是 只 要 曾经 有 过 变化 即 可 ， 而 不 是 要 求 它 在 样本 间 发 生变 化 
一 更 新 等 待 的 秒 数 


watch 是 一 种 强大 的 工具 ， 用 于 查看 性 能 统计 数据 如 何 随 时 间 变 化 。 它 并 不 复杂 ， 但 是 却 能 很 好 地 完成 目 己 的 工作 。 它 真正 
填补 了 使 用 某 些 性 能 工具 所 造成 的 空 日 ， 这 些 工具 无 法 周期 性 地 显示 已 更 新 的 输出 。 在 使 用 这 些 工 具 时 ， 你 可 以 用 窗口 形式 运行 
watch， 通 过 定期 查看 该 窗口 来 了 解 统计 信息 是 如 何 变 化 的 。 


8.2.4.2 ”用 法 示例 


清单 8.5 中 的 第 一 个 例子 展示 了 与 ps 命令 一 起 使 用 的 watch。 我 们 要 求 ps 给 出 每 个 进程 产生 的 一 般 故 障 的 数量 。watch 每 10 
秒 清除 屏幕 ， 并 更 新 该 信息 。 请 注意 ， 可 能 需要 为 你 要 求 执行 的 命令 加 上 3 引号， 这 样 ，watch 束 不 会 将 你 想 要 执行 的 命令 的 选项 
与 它 目 身 的 选项 搞 混 。 


清单 8.5 


[ezolt@wintermute ezolt]$ watch -n 10 "ps -0 minflt,cmd 


Every 10S: ps -0 minflt,cmd 
Wed Jun 16 08:33:21 2004 


MINFLT CMD 
1467 bash 
41 Watch -n 1 ps -0 minflt,cmd 


66 ps -0 minflt,cmd 


watch 作 为 一 种 工具 ， 其 基本 功能 可 以 很 容易 地 编写 为 简单 的 shell 脚 本 。 但 是 ，watch 比 使 用 shell 脚 本 更 简单 ， 因 为 它 几乎 
总 是 可 用 的 ， 并 且 能 正确 地 工作 。 别 忘 了 ， 有 些 性 能 工具 ， 如 ifconfig 或 ps 只 能 一 次 性 地 显示 统计 数据 ， 而 watch 却 能 很 容易 地 
跟踪 (只 需 看 上 一 眼 ) 统计 数据 的 变化 。 


8.2.5 gnumerlic 


在 进行 性 能 问题 调查 时 ， 性 能 工具 常常 会 生成 庞大 的 性 能 统计 数据 。 有 些 时 候 ， 梳 理 这 些 数据 并 从 中 找 出 能 够 表明 系统 运行 
情况 的 趋势 与 模式 就 成 了 一 个 问题 。 通 常 电 子 表格 ， 尤 其 是 gnumeric， 能 够 从 三 个 不 同 的 方面 使 得 这 个 任务 变 得 容易 实现 。 首 
先 ，gnumeric 提 供 了 内 置 函数 ， 比 如 求 最 大 值 、 最 小 值 、 平 均值 和 标准 偏差 ， 这 就 使 你 能 对 性 能 数据 进行 数值 分 析 。 其 
次 ，gnumeric 提 供 了 灵活 的 方式 来 导入 许多 性 能 工具 常用 输出 的 表格 文本 数据 。 最 后 ，gnumeric 还 有 一 个 强大 的 绘图 工具 ， 可 
以 将 性 能 工具 生成 的 性 能 数据 可 视 化 。 这 不 但 对 于 探寻 较 长 时 间 内 的 数据 趋势 是 极 有 价值 的 ， 而 且 对 于 寻找 不 同类 型 数据 之 间 的 
相关 性 〈 比 如 磁盘 MO 与 CPU 使 用 量 之 间 的 相关 性 ) 也 是 相当 有 用 的 。 通 常 ， 要 从 文本 输出 中 找 出 模式 是 比较 困难 的 ， 但 对 图 形 
来 说 ， 系 统 行为 就 会 显得 更 加 清晰 。 其 他 的 电子 表格 ， 如 OpenOffice 的 oocalc， 也 可 以 使 用 ， 不 过 gnumeric 强 大 的 文本 导入 
器 和 绘图 工具 使 得 它 成 为 最 容易 被 使 用 的 工具 。 


8.2.5.1 性 能 相关 的 选项 

使 用 电子 表格 帮助 实现 性 能 分 析 ， 只 需 完成 以 下 步骤 : 

1. 将 性 能 数据 保存 到 文本 文件 。 

2. 将 文本 文件 导入 到 gnumeric。 

3. 分 析 数 据 或 用 数据 绘图 。 

gnumeric 可 以 生成 多 种 不 同类 型 的 图 形 ， 并 且 提 供 了 多 种 不 同 的 函数 实现 数据 分 析 。 了 解 gnumeric 的 强大 功能 和 灵活 性 的 
最 好 方法 就 是 加 载 一 些 数 据 进行 实验 。 

8.2.5.2 ”用 法 示例 


要 展示 gnumeric 的 实用 性 ， 首 先 必须 生成 用 于 绘图 和 分 析 的 性 能 数据 。 清 单 8.6 要 求 vrmstat 生 成 100 秒 的 输出 ， 并 将 该 信息 
保存 到 文本 文件 vmstat_output 中 。 数 据 将 会 被 加 载 到 gnumeric。-n 选 项 表示 vmstat 只 显示 头 信 息 一 次 (而 不 是 每 屏 信 息 都 显 


不 ) 。 


清单 8.6 


[ezolt@nohs ezolt]$ vmstat -n 1 100 > vmstat output 


接 下 来 ， 用 如 下 命令 局 动 gnumeric: 


[ezolt@nohs ezolt]$ gnumeric & 


这 会 打开 一 个 空 日 电子 表格 用 于 导入 vmstat 数 据 。 


在 gnumeric 中 选择 File>Open， 弹 出 一 个 对 话 框 (图 中 未 显示 ) 用 于 选择 打开 的 文件 及 该 文件 的 类 型 。 我 们 选择 Text 
Import (Configurable) 作为 文件 类 型 ,然后 通过 一 系列 的 向 导 对 话 框 来 选择 将 vmstat_output 文 件 的 哪 一 列 映 射 到 电子 表格 
的 哪 一 列 。 对 vmstat 而 言 ， 最 好 从 第 二 行文 本 开始 导入 ， 因 为 第 二 行 包 售 了 列 名 称 以 及 每 一 列 适合 的 大 小 。 此 外 ， 为 导入 数据 
选择 Fixed-Width 也 是 很 有 用 的 ， 其 原因 是 vmstat 就 是 这 样 输 出 数据 的 。 在 成 功 导 入 数据 后 ， 我 们 就 会 看 到 如 图 8-1 所 示 的 电子 
表格 。 


接 下 来 ， 利 用 导入 的 数据 绘图 。 在 图 8-2 中 ， 我 们 用 不 同 的 CPU 使 用 情况 (us、sys、id、wa) 创建 了 一 个 置式 图 。 由 于 这 
些 数据 的 总 和 始终 为 100% 或 接近 该 值 ) ， 因 此 ， 每 次 都 能 看 出 哪 种 状态 处 于 主导 地 位 。 本 例 中 ， 系 统 在 大 部 分 时 间 都 是 空闲 
的 ， 不 过 在 图 中 1/4 的 部 分 出 现 了 大 量 的 等 待 时间 。 
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图 形 是 查看 一 个 测试 单 次 运行 时 ， 其 性 能 统计 数据 随时 间 变 化 情况 的 有 力 手 段 。 同 时 ， 对 于 友 现 不 同 运 行 的 对 比 差 异 也 是 很 
有 帮助 的 。 用 不 同 运行 得 到 的 数据 绘图 时 ， 要 确保 每 个 图 使 用 的 比例 是 相同 的 ， 这 能 让 数据 的 比较 对 照 更 加 容易 。 


gnumeric 是 一 种 轻 量 级 的 应 用 程序 ， 它 使 你 能 快速 简便 地 导入 、 绘 图 /分 析 大 量 的 性 能 数据 。 它 是 一 种 很 棒 的 工具 ， 通 过 处 
理性 能 数据 来 探寻 是 否 出 现 了 任何 有 趣 的 特性 。 


8.2.6 |dd 


Idd 可 以 被 用 来 显示 特定 的 二 进 制 文件 依赖 的 是 哪个 库 。ldd 有 助 于 跟 路 一 个 应 用 程序 可 能 使 用 的 库 遂 数 的 位 置 。 通 过 给 出 应 


用 程序 正在 使 用 的 所 有 库 ， 束 可 以 对 它们 进行 搜索 ， 找 出 包含 给 定 函 数 的 库 。 
8.2.6.1 ”性 能 相关 的 选项 
Idd 用 如 下 命令 行 调用 : 


ldd <binary> 


接着 |dd 会 列 出 该 二 进 制 文件 需要 的 所 有 库 ， 以 及 系统 中 有 哪些 文件 能 实现 这 些 需 求 。 
8.2.6.2 ”用 法 示例 


清单 8.7 展 示 的 是 ldd 用 在 二 进 制 文件 ls 上 。 在 这 个 特定 的 例子 中 ， 我 们 可 以 友 现 ls 使 用 了 如 下 这 些 库 : linux- 


gate.so.1, librt.so.1, libacl.so.1, libselinux.so.1, libc.so.6, libpthread.so.0, ld-linux.so.2#0libattr.so.1, 


清单 8.7 


[ezolt@localhost book]$ 1dd /bin/ls 
linux-gate.so.1 => (0x00dfe000 ) 
librt.so.1 => /lib/tls/librt.so.1 (0x0205b000 ) 
libacl.so.1 => /lib/libacl.so.1 (0O0x04983000 ) 
libselinuyx.so.1 => /lib/libselinux.so.1 (0x020c0000) 
Libc.So.6 => /lib/tls/libc.so.6 (0x0011a000) 
libpthread.so.0 => /lib/tls/libpthread.so.0 (0x00372000 ) 
/1ib/ld-1linux.so.2 => /1ib/ld-linux.so.2 (0x00101000) 
libattr.so.1 => /lib/libattr.so.1 (0Ox03fa4000 ) 


Idd 是 一 个 相对 简单 的 工具 ， 但 对 于 试图 追 踊 应 用 程序 使 用 了 哪些 库 以 及 这 些 库 在 系统 中 的 位 置 来 说 ， 它 具有 极 大 的 价值 。 


8.2.7 objdump 
对 于 分 析 二 进 制 文件 和 库 的 各 个 方面 来 说 ，objdump 是 一 种 复杂 而 强大 的 工具 。 尽 管 它 有 许多 其 他 的 功能 ， 它 可 以 被 用 来 
确定 给 定 的 库 提供 了 哪些 函数 。 
8.2.7.1 ”性 能 相关 的 选项 
objdump 用 如 下 命令 行 调用 : 
objdump -T <binary> 


如 果 调 用 的 时 候 使 用 了 -T 选 项 ， 则 它 将 显示 该 库 /二 进 制 文件 所 依赖 或 提供 的 全 部 符号 。 这 些 符号 可 以 是 数据 结构 ， 也 可 以 
是 阔 数 。 包 含 .text 的 每 一 行 objdump 输 出 都 是 该 二 进 制 文件 提供 的 一 个 函数 。 


8.2.7.2 ”用 法 示例 


清单 8.8 展 示 的 是 objdump 用 于 分 析 库 gtk。 因 为 我 们 感 兴趣 的 只 有 libgtk.so 提 供 的 符号 ， 所 以 用 fgrep 对 输出 进行 选择 ， 仪 
输出 那些 包含 .text 的 行 。 本 例 中 ， 我 们 可 以 看 到 libgtk.so 提 供 的 一 些 国 数 ， 包 括 gtk_ arg_ values equal、 


gtk tooltips set colors 和 gtk viewport set hadjustment。 
清单 8.8 


[ezolt@localhost book]$ objdump -T /usr/lib/libgtk.so | fgrep .text 
0384e6b60 1 d .text 00000000 


0394c580 9g DF .text 00000209 Base gtk arg values equal 

0389b630 日 DF .text 000001b5 Base gtk signal add emission hook full 
O385cdf@ g DF .text 0000015a Base gtk widget restore default style 
03865a20 9 DF .text 000002ae Base gtk viewport set hadjustment 
03929a20 9 DF .text 00000112 Base gtk clist columns autosize 
0389d9a@ 日 DF .text 000001bc Base gtk selection notify 

03909840 9g DF .text 000001a4 Base gtk drag set icon pixmap 

03871a20 9 DF .text 00000080 Base gtk tooltips set colors 

038e6b40 9 DF .text 00000028 Base gtk hseparator new 

038eb720 9 DF .text 0000007a Base gtk hbutton box set layout default 
038e08b0 9 DF .text 000003df Base gtk item factory add foreign 
@3899bc@ 9 DF .text 000001d6 Base gtk signal connect object while alive 


在 使 用 性 能 工具 时 ， 它 们 会 显示 一 个 应 用 程序 调用 的 库 立 数 (而 不 是 库 本 身 ) ，objdump 能 帮助 找到 每 个 函数 所 在 的 共享 
库 。 


8.2.8 GNU 调 试 器 (gdb) 


gdb 是 一 个 很 棒 的 应 用 程序 调试 器 ， 它 可 以 帮助 调查 一 个 正在 运行 的 应 用 程序 的 多 个 不 同方 面 。gdb 具 备 三 个 特性 使 得 它 对 
诊断 性 能 问题 来 说 非常 有 价值 。 第 一 ，gdb 可 以 附加 到 当前 正在 运行 的 进程 。 第 二 ，gdb 可 以 展示 该 进程 的 回 滴 ， 即 显示 当前 源 
代码 行 和 调用 树 。 附 加 到 进程 并 抽取 其 回溯 可 以 迅速 找 出 一 些 比较 明显 的 性 能 问题 。 但 是 ， 如 果 应 用 程序 不 是 卡 在 单 点 上 ， 那 么 
使 用 gdb 就 难以 进行 问题 诊断 ， 此 时 ， 系 统 级 的 分 析 器 ， 如 oprofile， 将 会 是 一 个 更 好 的 选择 。 第 三 ，gdb 可 以 将 虚拟 地 址 映射 
回 特定 的 函数 。 与 性 能 工具 相 比 ，gdb 更 擅长 计算 虚拟 地 址 的 位 置 。 例 如 ， 如 果 oprofile 给 出 了 事件 友 生 的 虚拟 地 址 而 非 函数 
名 ， 那 么 gdb 融 可 以 计算 出 该 地 址 的 函数 。 


8.2.8.1 ”性 能 相关 的 选项 
gdb 用 如 下 命令 行 调用 ， 其 中 ，pid 是 指 gdb 将 要 附加 的 进程 : 
gdb -p pid 
gdb 附 加 到 该 进程 后 ， 它 就 进入 到 交互 模式 ， 这 时 就 可 以 检查 给 定 进程 的 当前 执行 位 置 和 运行 时 变量 。 表 8-4 对 其 中 的 一 条 
命令 进行 了 说 明 ， 可 用 其 检查 正在 运行 的 进程 。 


表 8-4 gdb 运行 时 选项 


选 项 说 明 
bt 展示 当前 正在 执行 的 进程 回 湖 


gdb 还 有 很 多 命令 行 选项 和 运行 时 控件 ， 它 们 更 适合 于 调试 而 不 是 性 能 调查 。 获 取 更 多 信息 请 参见 gdb 手 册页 或 在 gdb 提 示 
中 键入 help。 


8.2.8.2 ”用 法 示例 


想 要 研究 gdb 是 如 何 工作 的 ， 可 以 先 在 一 个 简单 的 测试 应 用 程序 上 演示 它 。 清 单 8.9 中 的 程序 在 main 中 只 调用 了 锐 数 
a () ， 并 陷入 了 一 个 无 限 循环 。 这 个 程序 不 会 结束 ， 因 此 当 我 们 将 gdb 附 加 上 去 后 ， 它 将 会 一 直 执行 冰 数 a () 的 无 限 循环 。 


清单 8.9 


void af(vold ) 
{ 
Whilel(1) ; 


清单 8.10 局 动 应 用 程序 并 用 gdb 附 加 到 它 的 pid。 我 们 要 求 gdb 产 生 一 个 回 湖 ， 以 便 展 示 当 前 正在 执行 的 究竟 是 哪 条 代码 ， 
以 及 哪 组 阔 数 调用 会 导致 当前 的 位 置 。 如 同 预期 的 ，gdb 显 示 出 正在 执行 的 是 无 限 循环 a () ， 它 是 由 main () 调用 的 。 


清单 8.10 


[ezolt@wintermute examples]$ ./chew & 

[2] 17389 

[ezolt@wintermute examples]$ gdb -p 17389 

GNU gdb Red Hat Linux (5.3.90.0.20030710.41rh) 

Copyright 2003 Free Software Foundation, Inc. 

GDB is free software, covered by the GNU General Public License, and you are 
welcome to change it and/or distribute copies of it under certain conditions. 
Type “Show copying" to See the conditions. 

There is absolutely no warranty for GDB. Type "show warranty" for details. 
This GDB Was configured as "i386-redhat -linux-gnu'. 

Attaching to process 17389 

Reading Symbols from /usr/src/perf/utils/examples/chew...done. 

Using host libthread db library 

"Jlib/tls/libthread db.so.1". 

Reading Symbols from /1ib/tls/l1ibc.so.6...done. 


Loaded symbols for /1ib/tls/libc.so.6 
Reading Symbols from /lib/l1d-1inux.so.2...done. 


Loaded Symbols for /lib/ld-linux.s0o.2 
a () at chew.c:3 

3 while(1); 

(gdb) bt 

#0 a () at chew.c:3 

#1 0x0804832f in main () at chew.c:8 


最 后 ， 在 清单 8.11 中 ， 我 们 要 求 gdb 给 出 虚拟 地 址 0x0804832F 的 位 置 ， 而 gdb 显 示 该 地 址 是 函数 main 的 一 部 分 。 


清单 8.11 


(gdb) x Ox0804832f 
0x804832f <main+21>: Ox9090c3c9 


gdb 是 一 个 极其 强大 的 调试 器 ， 可 以 帮助 调查 性 能 问题 。 如 果 你 想 要 知道 特定 代码 路 径 友 生 的 确切 原因 ， 那 么 gdb 甚 至 在 性 
能 问题 已 经 确定 之 后 也 能 够 友 挥 作用 。 


8.2.9 ”gcc (GNU 编 译 器 套件 ) 


gcc 是 Linux 系 统 中 最 流行 的 编译 器 。 与 所 有 的 编译 器 一 样 ，gcc 需 要 源 代码 (如 C、C++ 或 Objective-C) 生成 二 进 制 代 
码 。 它 提供 了 多 个 选项 不 仅 可 以 对 得 到 的 二 进 制 代 码 进 行 优化 ， 还 能 让 应 用 程序 的 性 能 跟踪 变 得 更 容易 。 本 书 不 涉及 gcc 性 能 优 
化 的 详细 内 容 ， 但 是 如 果 想 要 提高 应 用 程序 的 性 能 ， 你 就 应 该 研究 一 下 这 些 内 容 。gcc 提 供 的 性 能 优化 选项 通过 多 种 优化 来 调整 
已 编译 的 二 进 制 文件 的 性 能 ， 这 些 优化 包括 : 架构 通用 优化 (使 用 -01、-02、-03) ， 特 定 架 构 优 化 (-march 和 -mcpu) ， 以 
及 基于 反馈 的 优化 (使 用 -fprofile-arcs 和 -fbranch-probabilities) 。 更 多 的 优化 选项 详情 请 参阅 gcc 手 册页 。 


8.2.9.1 性 能 相 天 的 选项 


gcc 最 基本 的 调用 格式 如 下 所 示 : 


gcc [-g level] [-pg] -0 prog name source.c 


gcc 有 数量 庞大 的 选项 来 影响 它 对 应 用 程序 的 编译 。 如 果 你 有 勇气 的 话 ， 可 以 到 gcc 手 册页 上 查阅 它们 。 表 8-5 给 出 了 有 助 于 
性 能 调查 的 具体 选项 。 


选 项 说 明 
-g 选项 回 二 进 制 文 件 添加 调试 信息 ， 默 认 级 别 为 2。 如果 指 定 级 别 ，gcc 将 会 调整 
保存 在 二 进 制 文件 中 的 调试 信息 量 。 级 别 1 只 提供 了 产生 回溯 所 需 的 信息 ， 没 有 关于 


-g[1|2|3] hie 、, , Ra en 
源 代码 行 与 特定 代码 行 的 映射 信息 。 级别 3 比 级 别 2 提供 的 信息 更 多 ， 比 如 源 代码 中 
的 宏 定 义 

一 pg 开局 应 用 程 夺 分 析 


许多 性 能 调查 工具 ， 如 oprofile， 需 要 用 调试 信息 编译 应 用 程序 ， 以 便 将 性 能 信息 映射 回 特定 的 应 用 程序 源 代码 行 。 如 果 没 
有 调试 信息 ， 它 们 一 般 也 还 是 可 以 工作 ， 但 是 如 果 局 动 调 试 ， 那 么 它们 将 会 提供 更 丰富 的 信息 。 应 用 程序 分 析 的 更 多 信息 参见 前 


面 的 章节 。 
8.2.9.2 ”用 法 示例 


理解 gcc 可 以 提供 的 调试 信息 类 型 的 最 好 方法 可 能 就 是 看 一 个 简单 的 例子 。 清 单 8.12 中 有 一 个 C 应 用 程序 的 源 代码 deep.c, 
该 程序 仅 调 用 了 一 组 立 数 ， 然 后 根据 传递 的 数字 输出 一 定数 量 的 字符 串 “hi”。 程 序 的 main 消 数 调用 立 数 a () ,函数 a () 调 
用 函数 b () ， 然 后 输出 “hi”。 


清单 8.12 


void b(int count) 
{ 
人 
for (i=0; 1I<Count ;I++ ) 


{printf ("hi\n");} 


void a(int count) 


{ 
b(count); 


} 
int main() 


{ 
a(10); 


首先 ， 如 清单 8.13 所 示 ， 编 译 该 程序 时 不 市 任何 调试 信息 。 在 调试 器 中 局 动 该 程序 ， 在 消 数 b () 上 添加 一 个 断 点 。 当 程序 
运行 时 ， 它 会 在 函数 b () 处 暂停 ， 并 请 求 回 滴 。gdb 可 以 弄 清楚 回 滴 ， 但 是 它 并 不 知道 冰 数 之 间 传 递 了 什么 样 的 值 或 者 消 数 存 
在 于 原始 源 代码 文件 中 的 什么 位 置 。 


清单 8.13 


[ezolt@wintermute utils]$ gcc -0 deep deep.c 


[ezolt@wintermute utils]$ gdb , /deep 


(gdb) break b 
Breakpoint 1 at 0x804834e 
(gdb) run 


Starting program: /usr/src/perf/utils/deep 
(no debugging Symbols found)...(no debugging Symbols found)... 


Breakpoint 1，0x0804834e in b () 
(gdb) bt 

#0 Q0x0804834e in b () 

#1 0x08048389 in a () 

#2 0x080483a8 in main () 


清单 8.14 局 动 调 试 信息 对 同样 的 应 用 程序 进行 编译 。 现 在 ， 当 运行 gdb 并 产生 回溯 时 ， 我 们 可 以 看 到 每 个 消 数 调用 传递 的 数 
值 ， 以 及 特定 代码 行 所 驻 留 的 准确 的 源 代码 行 。 


清单 8.14 


[ezolt@wintermute utils]$ gcc -g -0 deep deep.c 


[ezolt@wintermute utils]$ gdb . /deep 


(gdb) break b 

Breakpoint 1 at 0x804834e6e: file deep.c, line 3. 
(gdb) run 

Starting program: /usr/src/perf/utils/deep 


Breakpoint 1, b (count=10) at deep.c:3 
3 for (i=0; i<count;1i++) 


(gdb) bt 


#0 b (count=10) at deep.c:3 
#1 0x08048389 in a (count=10) at deep.c:9 
#2 0x080483a8 in main () at deep.c:14 


调试 信息 会 显著 增加 gcc 最 终生 成 的 可 执行 文件 的 大 小 。 但 是 ， 在 奶 蹊 性 能 问题 时 ， 由 其 提供 的 信息 却 是 无 价 的 。 


8.3 ”本 章 小 结 


本 草 给 出 了 对 调查 性 能 问题 有 用 的 各 种 Linux 实 用 工具 的 集合 。 首 先 介绍 的 工具 如 bash、watch、tee 和 script 能 目 动 显示 和 
收集 性 能 数据 。 之 后 介绍 了 gnumeric， 该 工具 可 以 对 基于 文本 的 性 能 工具 所 得 到 的 结果 进行 绘图 和 分 析 。 之 后 研究 了 Idd 和 


objdump， 它 们 可 用 于 友 现 一 个 浮 数 属于 哪个 库 。 接 着 本 草 拉 述 了 gdb， 它 能 够 被 用 来 调查 当前 正在 运行 的 应 用 程序 的 执行 和 
运行 时 信息 。 最 后 ， 本 章 给 出 了 gcc， 该 工具 可 生成 市 符号 调试 信息 的 二 进 制 文 件 ， 这 可 以 帮助 其 他 性 能 工具 ， 如 oprofile， 将 
事件 映射 回 一 个 特定 的 源 代码 行 。 


在 之 后 的 章节 中 ， 我 们 将 集合 迄今 为 止 提 出 的 所 有 工具 ， 以 解决 一 些 现实 的 性 能 问题 。 


第 9 章 ”使 用 性 能 工具 友 现 问 


圈 


本 章 主要 介绍 综合 运用 之 前 提出 的 性 能 工具 来 缩小 性 能 问题 产生 原因 的 沁 围 。 
阅读 本 章 后 ， 你 将 能 够 : 
. 启动 行为 异常 的 系统 ， 使 用 Linux 性 能 工具 追踪 行为 异常 的 内 核 函 数 或 应 用 程序 。 
` 启动 行为 异常 的 应 用 程序 ， 使 用 Linux 性 能 工具 追踪 行为 异常 的 函数 或 源 代 码 行 。 


追踪 CPU、 内 存 、 磁 一 I/O 和 网 络 的 过 度 使 用 情况 。 


9.1 并 非 扎 是 万 灵 约 


本 章 假设 可 以 通过 改变 软件 来 解决 性 能 问题 。 通 过 对 应 用 程序 或 系统 调 优 来 达到 性 能 目标 并 非 总 是 可 行 的 。 如 果 调 优 失败 ， 
束 可 能 要 求 进行 硬件 升级 或 更 换 。 如 果 系 统 容量 达到 极限 ， 那 么 性 能 调 优 殉 只 能 起 到 一 定 的 作用 。 


举例 来 说 ， 升 级 系统 内 存 容量 可 能 是 必要 的 (或 者 是 更 便宜 的 ) ， 而 不 是 追踪 哪个 应 用 程序 在 使 用 系统 内 存 ， 然 后 对 它们 进 
行 调整 以 降低 其 使 用 量 。 只 升级 系统 硬件 而 非 追 踊 并 调整 特定 的 性 能 问题 ， 这 个 决定 依赖 于 问题 本 身 ， 同 时 ， 它 也 是 进行 调查 的 
个 人 的 价值 判断 。 它 实际 上 取决 于 哪 种 选择 更 加 便宜 ， 是 (问题 调查 的 ) 时 间 万 面 ， 还 是 (购买 新 硬件 的 ) 经 费 方 面 。 最 后 ， 在 
某 些 情况 下 ， 调 优 将 是 首选 或 唯一 的 选择 ， 这 融 是 本 章 要 摘 述 的 内 容 。 


9.2 ”开始 退路 


当 你 决定 企 Linux 上 优化 某 综 忒 西 忆 后， 你 乍 先 要 确定 的 是 要 优化 什么 。 本 章 使 用 的 方法 履 盖 了 一 些 比 较 昔 见 的 性 能 问题 ， 
通过 举例 来 说 明 如 何 利用 前 面 介 绍 的 工具 共同 解决 这 些 问 题 。 接 下 来 的 几 个 小 节 将 帮助 引导 你 找到 性 能 问题 的 成 因 。 在 很 多 小 节 
中 会 先 要 求 运行 各 种 性 能 工具 ， 然 后 根据 结果 跳 转 到 本 草 的 其 他 小 蔬 。 这 有 助 于 找到 问题 的 根源 。 


束 像 在 前 面 草 节 里 陈述 的 一 样 ， 保 存 每 次 执行 的 测试 结果 是 一 个 好 办 法 。 这 使 你 能 在 之 后 的 时 间 查 看 结果 ， 假 如 调查 结果 尚 
不 能 确定 ， 还 可 以 将 结果 友 送 给 其 他 人 。 


现在 开始 。 


调查 问题 的 时 候 ， 初 始 系统 运行 的 无 天 程序 越 少 越 好 ， 因 此 ， 关 闭 或 终止 任何 不 需要 的 应 用 程序 或 进程 。 一 个 干净 的 系统 有 
助 于 消除 由 任何 无 天 应 用 程序 可 能 导致 的 混淆 干扰 。 


如 果 某 个 特定 的 应 用 或 程序 没有 按 预 期 执行 ， 直 接 跳 到 9.3 节 。 如 果 不 是 某 个 应 用 程序 性 能 不 好 ， 而 是 整个 Linux 系 统 执行 效 
果 不 如 预期 ， 则 跳 到 9.4 记 。 


9.3 ”优化 应 用 程序 


优化 应 用 程序 时 ， 其 执行 的 多 个 万 面 有 可 能 出 现 问题 。 本 证 将 根据 你 友 现 的 问题 ， 将 你 引导 到 正确 的 小 忆 。 


9-1 展 示 了 优化 应 用 程序 的 步 又。 


oa 
内 存 使 用 有 ”>< 启动 时 间 有 
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网 络 使 用 有 
和 问题 ? 


诊断 从 9.3.1 节 开始 。 


9.3.1 内 仔 使 用 有 问题 ? 


使 用 top 或 ps 确定 应 用 程序 使 用 了 多 少 内 存 。 如 果 该 程序 消耗 的 内 存量 超过 预期 ， 转 到 9.6.6 节 。 否 则 ， 继 续 见 9.3.2 蔬 。 


9.3.2 ”局 动 时 间 有 器 题 ? 


如 果 应 用 程序 局 动 所 人 花费 的 时 间 有 问题 ， 见 9.3.3 节 。 人 否则 ， 转 到 9.3.4 节 。 


9.3.3 ”加 载 器 引入 延迟 了 吗 ? 


要 测试 问题 是 否 出 在 加 载 器 上 ， 就 按 前 面 章节 所 述 来 设置 ld 环境 变量 。 如 果 |d 统 计数 据 显示 在 映射 所 有 的 符号 时 有 明显 的 延 
迟 ， 那 么 残 尽量 减少 应 用 程序 使 用 的 库 的 数量 和 大 小 ， 或 者 尽量 预 链接 库 。 


如 果 加 载 器 确实 表现 出 有 问题 ， 转 到 9.9 节 。 如 果 没 有 问题 ， 继 续 见 9.3.4 节 。 


9.3.4 CPU 使 用 (或 完成 时 长 ) 有 问题 ? 
用 top 或 ps 来 确定 应 用 程序 的 CPU 使 用 量 。 如 果 应 用 程序 是 CPU 消耗 大 户 ， 或 其 完成 时 间 特 别 长 ， 那 么 该 程序 就 存在 CPU 使 
用 问题 。 


通 单 ， 一 个 应 用 程序 的 不 同 部 分 会 具有 不 同 的 性 能 表现 。 那 么 残 可 能 需要 隅 离 那些 性 能 不 佳 的 部 分 ， 这 样 使 用 性 能 工具 时 融 
不 用 测量 那些 对 性 能 没有 负面 影响 的 部 分 ， 而 只 需要 测量 被 隔离 部 分 的 性 能 统计 数据 。 为 此 ， 可 能 要 改变 应 用 程序 的 行为 ， 使 之 
易于 分 析 。 如 果 应 用 程序 某 个 特定 的 部 分 对 性 能 非常 重要 ， 那 么 在 测量 整个 应 用 程序 的 性 能 统计 信息 时 ， 要 么 试 着 只 测量 关键 部 
分 执行 时 的 性 能 统计 数据 ， 要 么 残 让 该 部 分 运行 相当 长 的 时 间 ， 直 到 应 用 程序 无 天 部 分 的 数据 在 与 之 不 相干 的 整个 性 能 统计 数据 
中 只 占 一 小 部 分 。 尽 量 减少 应 用 程序 的 工作 ， 以 便 尼 只 执行 对 性 能 至 天 重要 的 功能 。 比 方 说 ， 在 收集 一 个 应 用 程序 整体 运行 的 性 
能 统计 信息 时 ， 我 们 不 希望 启动 和 退出 过 程 占据 大 部 分 的 应 用 程序 运行 时 的 总 时 间 量 。 在 这 种 情况 下 ， 比 较 有 效 的 方法 是 启动 应 
用 程序 ， 多 次 运行 时 间 消 耗 大 的 部 分 ， 然 后 立即 退出 程序 。 这 样 分 析 工 具 (如 oprofile 或 gprof) 融 可 以 捕获 运行 缓慢 代码 的 更 
多 信息 ， 而 不 是 那些 执行 了 但 却 与 问题 无 关 部 分 (如 局 动 和 退出 ) 的 信息 。 比 这 个 方法 更 好 的 是 修改 应 用 程序 的 源 代码 ， 当 应 用 
程序 局 动 时 ， 目 动 运行 耗 时 部 分 ， 然 后 退出 程序 。 这 有 助 于 最 大 程度 减少 与 特定 性 能 问题 无 天 的 分 析 数 气 。 


如 果 应 用 程序 的 CPU 使 用 有 问题 ， 转 到 9.5 节 。 如 果 没 有 问题 ， 见 9.3.5 节 。 


9.3.5 ”应 用 程序 的 磁盘 使 用 有 器 题 ? 


如 果 已 经 知道 应 用 程序 会 导致 大 量 的 磁盘 /MO， 转 到 9.7.3 节 以 确定 它 访 问 了 哪些 文件 。 人 否则 ， 见 9.3.6 节 。 


9.3.6 ”应 用 程序 的 网 络 使 用 有 器 题 ? 


如 果 已 经 知道 应 用 程序 会 导致 大 量 的 网 络 /O， 转 到 9.8.6 节 。 


如 果 上 述 问 题 均 不 存在 ， 你 遇 到 的 应 用 程序 性 能 问题 可 能 丈 不 在 本 书 范 围 之 内 ， 请 转 到 9.9 节 。 


9.4 优化 系统 


有 时 候 ， 处 理 一 个 行为 异常 的 系统 ， 找 出 究竟 是 什么 拉 低 了 每 件 事情 的 速度 是 很 重要 的 。 


由 于 调查 的 是 系统 级 的 问题 ， 其 原因 可 能 仓 在 于 任何 地 方 ， 从 用 户 应 用 程序 到 系统 库 ， 再 到 Linux 内 核 。 插 运 的 是 ， 与 很 多 


别 的 操作 系统 不 同 ， 对 Linux 来 说 ， 即 使 不 能 得 到 系统 上 所 有 应 用 程序 的 源 代码 ， 也 可 以 获取 其 中 大 多 数 的 源 代码 。 如 果 有 必要 
的 话 ， 你 可 以 修复 这 个 问题 并 将 其 提交 给 该 部 分 的 维护 者 。 最 糟 糙 的 情况 也 不 过 是 在 本 地 运行 已 修复 的 版 本 。 这 残 是 开源 软件 的 


力量 。 


图 9-2 展 示 的 是 诊断 系统 级 性 能 问题 的 流程 。 


转 到 9.5.1 转 到 9.6.1 


转 到 9.7.1 


\ 


转 到 9.8.1 


调查 从 9.4.1 节 开始 。 


9.4.1 系统 是 受 CPU 限 制 的 吗 ? 


使 用 top、procinfo 或 mpstat 来 确定 系统 在 哪些 地 方 消耗 了 时 | 间 。 如 果 整 个 系统 空 闪 和 | 等待 时 间 的 比例 不 足 全 部 时 间 的 
5%， 那 么 该 系统 就 是 受 CPU 限 制 的 。 转 到 9.4.3 蔬 。 否 则 ， 前 进 到 9.4.2 书 。 


9.4.2 ”单个 进程 是 受 CPU 限 制 的 吗 ? 


虽然 系统 作为 一 个 整体 可 能 不 是 受 CPU 限 制 的 ， 但 在 一 个 对 称 多 人 处理 (SMP) 或 超 线 程 系 统 中 ， 单 个 处 理 器 可 能 是 受 CPU 
限制 的 。 


使 用 top 或 mpstat 来 确定 单个 CPU 的 空 内 和 等 待 时 间 是 否 少 于 5%。 如 果 是 ， 那 么 一 个 或 多 个 CPU 就 是 受 CPU 限 制 的 ， 对 这 
种 情况 ， 转 到 9.4.4 节 。 


否则 ， 各 处 理 器 都 不 是 受 CPU 限 制 的 ， 则 转 到 9.4.7 节 。 


9.4.3 ”一 个 或 多 个 进程 使 用 了 大 多 数 的 系统 CPU 吗 ? 


下 一 步 是 要 找 出 是 否 有 特定 应 用 程序 或 应 用 程序 组 使 用 了 CPU。 最 简单 的 方法 是 运行 top。 默 认 情况 下 ，top 按 CPU 使 用 量 
的 降序 来 排列 进程 。top 按 照 该 进程 消耗 的 用 户 时 | 间 和 系统 时 间 忌 和 来 报告 进程 的 CPU 使 用 量 。 举 个 例子 ， 如 果 一 个 应 用 程序 在 
用 户 空间 代码 上 消耗 了 20%CPU 时 间 ， 在 系统 代码 上 消耗 了 30%CPU 时 间 ， 那 么 ，top 将 会 报告 该 进程 消耗 了 50%CPU 时 间 。 将 
所 有 进程 的 CPU 时 间 加 起 来 ， 如 果 这 个 时 间 了 明显 少 于 整个 系统 的 系统 时 间 加 用 户 时 间 ， 那 么 内 核 所 做 的 重要 工作 融 与 应 用 程序 
无 天 ， 转 到 9.4.5 证 。 


否则 ， 每 个 进程 都 转 9.5.1 节 一 次 ， 以 便 确 定时 间 是 在 哪里 消耗 的 。 


9.4.4 ”一 个 或 多 个 进程 使 用 了 早 个 CPU 的 大 多 数 时 间 ? 


下 一 步 是 要 找 出 是 否 有 特定 应 用 程序 或 应 用 程序 组 使 用 了 单个 CPU。 实 现 该 目标 最 简单 的 方法 是 运行 top。 默 认 情况 
下 ，top 按 CPU 使 用 量 的 降序 来 排列 进程 。 在 报告 进程 的 CPU 使 用 量 时 ，top 显 示 的 是 应 用 程序 使 用 的 总 CPU 和 系统 时 间 。 举 个 
例子 ， 如 果 应 用 程序 在 用 户 空间 代码 上 消耗 了 20% 的 CPU， 在 系统 代码 上 消耗 了 30% 的 CPU 时 间 ， 那 么 ，top 将 会 报告 该 应 用 程 
序 消耗 了 50% 的 CPU 时 间 。 


首先 ， 运 行 top， 然 后 将 最 后 一 个 CPU 添 加 到 top 显 示 的 字段 中 。 打 开 Irix 模 式 ， 以 便 top 显 示 每 个 处 理 器 使 用 的 CPU 时 间 忆 
量 而 不 是 整个 系统 的 CPU 时 | 间 。 对 于 每 个 利用 率 高 的 处 理 器 ， 将 其 上 运行 的 特定 应 用 程序 或 多 个 应 用 程序 的 CPU 时 | 间 加 起 来 。 
如 果 人 在 一 个 CPU 上 ， 应 用 程序 时 间 总 和 低 于 内 核 加 用 户 时 间 之 和 的 7?%， 这 表明 内 核 似 乎 化 了 大 量 的 时 间 在 其 他 的 工作 上 而 不 


是 在 应 用 程序 上 。 对 这 种 情况 ， 见 9.4.5 节 。 人 否则 ， 应 用 程序 很 有 可 能 残 是 CPU 消耗 量 的 原因 ， 对 每 个 应 用 程序 ， 转 到 9.5.1 节 。 


9.4.5 内核 服务 了 许多 中 新 吗 ? 


这 看 起 来 好 像 是 内 核 花 费 了 大 量 时 间 完 成 那些 不 代表 应 用 程序 的 工作 。 对 这 种 情况 的 一 种 解释 是 |/O 卡 提交 了 很 多 中 断 ， 比 
如 ， 一 个 忙碌 的 网 卡 。 运 行 procinfo 或 cat/procinterrupts 来 确定 有 多 少 中 断 被 提出 ， 其 提出 频率 是 怎样 的 ， 以 及 哪些 设备 导 
致 了 这 些 中 断 。 这 可 能 为 系统 的 行为 提供 线索 。 将 这 些 信息 记录 下 来 ， 并 进入 9.4.6 古 。 


9.4.6 内核 的 时 间 伦 在 哪儿 了 ? 


最 后 要 搞 清 楚 的 是 内 核 究竟 做 了 些 什么 。 在 系统 上 运行 oprofile， 记 录 下 哪些 内 核 函 数 消耗 了 大 量 的 时 间 (超过 总 时 间 的 
10%) 。 学 试 阅 读 这 些 国 数 的 内 核 源 代码 ， 或 是 在 Web 上 搜索 这 些 函 数 的 引用 。 可 能 不 会 立即 弄 清楚 这 些 函 数 的 功能 ， 但 是 可 
以 试 着 找 出 它们 在 哪个 内 核子 系统 中 。 仪 仪 确定 使 用 的 是 哪个 子 系统 (如 内 存 、 网 络 、 调 度 或 磁盘 ) 可 能 就 足以 判断 是 哪里 出 了 


问题 。 


知道 这 些 消 数 的 功能 还 有 可 能 了 解 到 它们 被 调用 的 原因 。 如 果 消 数 是 设备 特定 的 ， 束 要 试 着 找 出 为 什么 要 使 用 特定 的 设备 
(尤其 是 如 果 它 还 有 大 量 的 中 断 ) 。 同 其 他 友 现 同样 问题 的 人 友 电 子 邮 件 ， 有 可 能 的 话 ， 与 内 核 开 友人 员 联 系 。 


转 到 9.9 节 。 


9.4.7 ”交换 空间 的 使 用 量 在 增加 吗 ? 


下 一 步 是 检查 交换 空间 的 使 用 量 是否 在 增加 。 不 少 系统 级 性 能 工具 ， 如 top、vmstat、procinfo 和 和 gnome-system-info 等 
都 会 提供 这 个 信息 。 如 果 交 换 空 间 在 增加 ， 就 需要 找 出 是 系统 的 哪个 部 分 消耗 了 更 多 的 内 存 。 要 实现 这 个 目的 ， 请 转 到 9.6.1 


十 上 


T。 


如 果 被 使 用 的 交换 空间 没有 增加 ， 则 见 9.4.8 市 。 


9.4.8 ”系统 是 受 l/O 限 制 的 吗 ? 


运行 top 时 ， 码 看 系统 是 人 否 在 等 待 状态 上 消耗 了 大 量 的 时 间 。 如 果 这 个 时 间 比 例 超过 了 50”%， 那 么 系统 融 企 等 待 MO 上 消耗 
了 相当 多 的 时 间 ， 我 们 束 要 确定 这 个 MO 是 哪 种 类 型 ， 见 9.4.9 节 。 


如 果 系 统 没 有 化 大 量 的 时 间 等 竺 MO， 那么 你 遇 到 的 问题 惑 不 在 本 书 学 围 之 内 ， 则 转 到 9.9 蔬 。 


9.4.9 ”系统 使 用 磁盘 I/O 吗 ? 


接 下 来 ， 运 行 vmstat (或 iostat) 并 查看 磁盘 读 写 的 块 数 。 如 果 磁 盘 读 写 的 块 数 很 大 ， 那 么 这 可 能 束 是 磁盘 瓶 贷 ， 转 到 9.7.1 
芒 。 人 否则 ， 继 续 见 9.4.10 书 。 


9.4.10 ”系统 使 用 网 络 |/O 吗 ? 


接 下 来 ， 我 们 要 得 看 系统 是 否 使 用 了 大 量 的 网 络 /O。 最 简单 的 万 法 是 运行 iptraf、ifconfig 或 sar 来 找 出 每 个 网 络 设备 上 传 
输 了 多 少数 据 。 如 果 网 络 流量 接近 网 络 设备 的 容量 ， 那 么 束 可 能 是 网 络 瓶 贷 ， 则 转 到 9.8.1 古 。 如 果 看 上 去 没有 网 络 设 备 进 行 了 
网 络 通信 ， 那 么 内 核 等 待 的 是 没有 包含 在 本 书 学 围 内 的 其 他 一 些 /O 设 备 。 查 看 内 核 调 用 了 哪些 函数 以 及 哪些 设备 向 内 核发 起 了 
中 断 可 能 会 有 所 帮助 ， 转 到 9.4.2 节 。 


9.5 ”优化 进程 CPU 使 用 情 : 


当 确 定 了 有 某 特 定 进 程 或 应 用 程序 是 CPU 瓶颈 后 ， 束 必须 查 明 其 消耗 时 间 的 位 置 (和 原因 ) 。 
图 9-3 展 示 了 调查 进程 CPU 使 用 情况 的 方法 。 


调查 从 9.5.1 节 开始 。 


是 ， 


转 到 9.9 


转 到 9.9 


9.5.1 ”进程 在 用 户 还 是 内 核 空间 花费 了 时 间 ? 


你 可 以 用 time 命 令 来 确定 一 个 应 用 程序 是 否 在 内 核 或 用 户 模 式 下 消耗 了 时 间 。oprofile 也 可 以 用 来 确定 时 间 伦 在 了 哪里 。 通 
过 分 析 每 一 个 进程 ， 能 够 看 到 一 个 进程 是 个 将 其 时 间 人 花 在 了 内 核 或 用 户 空间 。 


如 果 应 用 程序 在 内 核 空 间 消耗 了 大 量 的 时 间 (超过 25%) ， 见 9.5.2 节 。 人 否则， 转 到 9.25.3 节 。 


9.5.2 ”进程 有 哪些 系统 调用 ， 完 成 它们 花 了 多 少时 间 ? 
下 一 步 ， 运 行 strace 来 查看 有 哪些 系统 调用 以 及 它们 完成 的 时 长 是 多 少 。 你 还 可 以 运行 oprofile 找 出 哪些 内 核 水 数 被 调用 
i 


减少 系统 调用 的 次 数 或 者 改变 代表 程序 进行 的 系统 调用 都 有 可 能 提升 性 能 。 有 些 系 统 调用 可 能 是 总 想不到 的 ， 是 应 用 程序 调 
用 各 种 库 的 结果 。 你 可 以 运行 ltrace 和 strace 来 帮助 确定 它们 被 调用 的 原因 。 


现在 问题 已 经 明确 了 ， 残 由 你 来 解决 它 ， 转 到 9.9 节 。 


9.5.3 ”进程 在 哪些 为 数 上 化 了 时 间 ? 
下 一 步 ， 使 用 周期 事件 在 应 用 程序 上 运行 oprofile， 确 定 哪些 国 数 使 用 了 全 部 的 CPU 周期 ( 即 ， 哪 些 国 数 消耗 了 所 有 应 用 程 
序 时 间 ) 。 


记 住 ， 尽 管 oprofile 可 以 向 你 显示 在 一 个 进程 上 花费 了 多 少时 间 ， 但 是 在 进行 尔 数 级 分 析 时 ， 一 个 特定 国 数 成 为 热点 的 原因 
是 由 于 其 频繁 被 调用 ， 还 是 仪 仪 由 于 其 完成 时 间 很 长 ， 是 无 法 弄 清楚 的 。 

一 种 能 弄 明 白 上 述 两 种 情况 中 哪 种 是 正确 的 方法 是 : 从 oprofile 获 得 源 代码 级 注释 ， 并 查找 应 该 几乎 没有 开销 的 指令 / 源 代 
码 行 (如 赋值 ) 。 相 对 于 其 他 高 成 本 的 源 代 码 行 ， 它 们 的 样本 数量 将 接近 于 函数 家 调用 的 次 数 。 再 次 声明 ， 这 仪 仪 是 近似 的 ， 
为 oprofile 只 采样 了 CPU， 乱 序 处 理 器 会 误 判 一 些 周期 。 


9.5.4 “热点 函数 的 调用 树 是 怎样 的 ? 


接 下 来 ， 你 可 以 找 出 耗 时 国 数 是 上 后 么 航 调 用 的 及 其 家 调用 的 原因 。 把 应 用 程序 与 gprof 一 起 运行 能 够 显示 每 个 国 数 的 调用 
树 。 如 果 耗 时 函数 在 一 个 库 中 ， 你 可 以 使 用 ltrace 来 查看 是 哪些 函数 。 最 后 ， 你 可 以 使 用 oprofile 较 新 的 版 本 来 支持 调用 树 的 跟 
踩 。 还 有 一 种 万 法 ， 你 可 以 在 gdb 中 运行 应 用 程序 ， 在 热点 图 数 上 设置 断 点 。 然 后 运行 该 应 用 程序 ， 人 在 每 次 调用 热点 图 数 时 ， 马 
都 会 暂停 。 此 时 ， 可 以 生成 一 个 回 滴 ， 看 看 究竟 是 哪些 消 数 和 源 代码 行 产 生 了 这 个 调用 。 


如 果 减 少 对 耗 时 函数 的 调用 不 能 加 快 应 用 程序 ， 或 者 无 法 消除 这 些 消 数 ， 见 9.5.5 世 。 


否则 ， 转 到 9.9 世 。 


9.5.5 Cache 缺失 与 热点 负数 或 源 代 得 行 是 对 应 的 呜 ? 


下 一 步 ， 针 对 你 的 应 用 程序 运行 oprofile、cachegrind 和 Kkcache， 看 看 耗 时 函数 或 源 代 码 行 是 否 具有 大 量 的 Cache 缺失。 如 
果 是 ， 则 尝试 重新 安排 或 压缩 你 的 数据 结构 和 访问 ， 让 它们 变 得 更 加 cache 友 好 。 如 果 热 点 代码 行 没有 高 cache 缺 失 率 ， 那 么 就 
党 试 重新 安排 你 的 算法 来 减少 特定 行 或 函数 执行 的 次 数 。 


在 任何 情况 下 ， 工 具 都 会 尽 其 所 能 地 同 你 提供 信息 ， 转 到 9.9 市 。 


9.6 ”优化 内 存 使 用 情 ; 


一 般 ， 要 使 用 大 量 内 存 的 应 用 程序 通常 会 导致 其 他 一 些 性 能 问题 的 产生 ， 比 如 cache 缺 失 、 转 换 后 援 缓 中 器 (TLB) 缺失 以 
及 交换 。 


图 9-4 展 示 了 我 们 在 试图 弄 清楚 系统 内 存 使 用 情况 时 的 决策 流程 。 


转 到 9.9 


转 到 9.9 
找 出 每 个 库 
并 数 的 大 小 \ 


转 到 9.9 


转 到 9.9 
图 9-4 


调查 从 9.6.1 节 开始 。 


9.6.1 ”内 核 的 内 存 使 用 量 在 增加 吗 ? 


要 追踪 谁 使 用 了 系统 内 存 ， 首 先 要 确定 内 核 自身 是 否 分 配 内 存 。 运 行 slabtop 查 看 内 核 的 内 存 总 大 小 是 否 增加 。 如 果 增 加 
了 ， 则 跳 到 9.6.2 节 . 


如 果 内 核 的 内 存 使 用 量 没 有 增加 ， 那 么 可 能 是 特定 进程 导致 了 用 量 增加 。 要 追 趴 是 哪个 进程 该 为 内 存 使 用 量 的 增加 负责 ， 转 


到 9.6.3 节 。 


9.6.2 ”内 核 使 用 的 内 存 类 型 是 什么 ? 


如 果 内 核 的 内 存 使 用 量 在 增加 ， 残 再 次 运行 slabtop 来 确定 内 核 分 配 的 内 存 类 型 。 分 片 的 名 字 多 少 会 暗示 一 下 内 存 馈 分 配 的 
原因 。 通 过 Web 搜 索 ， 你 可 以 找到 内 核 源 代码 中 每 个 分 片 名 字 的 更 多 详细 信息 。 只 需 在 内 核 源 代码 中 搜索 该 分 片 的 名 字 ， 并 确 
定 它 被 用 于 哪些 文件 ， 束 有 可 能 弄 清楚 它 被 分 配 的 原因 。 在 明确 了 哪些 子 系统 分 配 了 所 有 的 内 存 后 ， 可 以 尝试 调整 特定 子 系统 可 
以 消耗 的 最 大 内 存量 ,或 者 减少 该 子 系统 的 使 用 量 。 


转 到 9.9 节 。 


9.6.3 “特定 进程 的 驻 留 集 大 小 在 增加 吗 ? 


接 下 来 ， 你 可 以 使 用 top 或 ps 来 查看 特定 进程 的 驻 留 集 大 小 是 否 在 增加 。 最 简单 的 方法 是 在 top 的 输出 中 添加 rss 字 段 ， 并 按 
照 内 存 使 用 量 来 排序 。 如 果 一 个 特定 进程 不 断 增加 内 存 的 使 用 量 ， 我 们 就 需要 弄 清楚 它 用 的 内 存 类 型 是 什么 。 要 和 弄 清楚 应 用 程序 
使 用 的 内 存 是 什么 类 型 ， 转 到 9.6.6 方 。 如 果 没 有 特定 进程 使 用 了 更 多 内 存 ， 则 见 9.6.4 市 。 


9.6.4 ”共享 内 存 的 使 用 量 增 加 了 吗 ? 


使 用 ipcs 来 确定 被 使 用 的 共享 内 存 的 数量 是 否 在 增加 。 如 果 是 ， 见 9.6.5 节 以 确定 哪些 进程 在 使 用 内 存 。 否 则 ， 你 直到 是 不 在 
本 书 讨 论 范 围 内 的 系统 内 存 泄 圳 问题 ， 转 到 9.9 市 。 


9.6.5 ”哪些 进程 使 用 了 共享 内 存 ? 


用 ipcs 来 确定 哪些 进程 使 用 并 分 配 了 共享 内 存 。 确 定 了 使 用 了 共享 内 存 的 进程 之 后 ， 束 调查 各 个 进程 来 找 出 它们 为 什么 使 用 
内 存 。 比 如 ， 在 应 用 程序 的 源 代码 中 寻找 对 shmget (分 配 共 享 内 存 ) 或 shmat (附加 到 它 上 面 ) 的 调用 。 阅 读 应 用 程序 的 文 
档 ， 查 找 解 释 并 减少 其 共享 内 存 使 用 的 选项 。 


尝试 减少 共享 内 存 使 用 量 并 转 到 9.9 市 。 


9.6.6 “进程 使 用 的 内 仓 类 型 是 什么 ” 
找 出 进程 使 用 的 内 存 类 型 最 简单 的 方法 是 在 /proc 文 件 系 统 中 查看 其 状态 。 文 件 cat/proc/<pid>/status 给 出 了 进程 内 存 使 


用 情况 的 详细 信息 。 

如 果 进 程 具有 大 的 VmExe 值 ， 这 残 意味 着 可 执行 文件 很 大 。 要 指明 可 执行 文件 中 哪些 销 数 导 有 至 了 这 个 大 小 ， 请 转 到 9.6.8 
三 。 如 果 进 程 具有 大 的 VmLib 值 ， 这 丈 意 味 着 该 进程 使 用 了 大 量 的 共享 库 ， 或 是 几 个 体积 较 大 的 共享 库 。 要 指明 哪些 库 导 至 了 这 
个 大 小 ， 请 转 到 9.6.9 节 。 如 果 进 程 的 VmData 值 较 大 并 且 企 增加 ， 这 融 意 味 着 该 进程 的 数据 区 或 堆 在 增加 。 要 分 析 其 原因 ， 请 


转 到 9.6.10 节 。 


哪些 了 滑 数 .EF 在 使 用 全 部 的 栈 ? 


9.6.7 
要 找 出 哪些 消 数 分 配 了 大 量 的 栈 ， 我 们 必须 使 用 gdb 和 一 点 点 拉 巧 。 第 一 步 ， 使 用 gdb 附 加 a 到 正在 运行 的 进程 。 第 二 步 ， 用 
(在 i386 上 ) 用 info registers esp 输 出 栈 指针 。 这 个 输出 束 是 栈 指针 的 当前 值 。 现 在 键入 up 并 


bt 要 求 gdb 产 生 回溯 。 第 三 步 ， 
输出 栈 指针 。 前 面 栈 指针 和 当前 栈 指针 的 帮 值 (十 六 进 制 ) 区 是 前 一 个 锐 数 使 用 的 栈 容量 。 继 续 这 样 Up 回 滴 ， 你 将 可 以 友 现 哪 


个 立 数 使 用 了 大 部 分 的 栈 。 
当 你 确定 了 哪个 轴 数 或 函数 组 消耗 了 大 部 分 的 栈 之 后 ， 你 可 以 修改 应 用 程序 ， 减 少 该 函数 (或 这 些 消 数 ) 的 调用 次 数 和 大 


小 。 转 到 9.9 节 。 
能 会 有 所 帮助 。 


9.6.8 ”哪些 消 数 的 文本 大 小 最 大 ? 
如 果 可 执行 文件 使 用 了 相当 可 观 的 内 存 容 量 ， 那 么 确定 哪些 函数 占用 了 最 多 的 空间 ， 并 删除 不 必要 的 函数 可 能 会 
对 一 个 可 执行 文件 或 符号 编译 的 库 来 说 ， 可 以 请 求 nm 显示 所 有 符号 的 大 小 ， 并 用 如 下 命令 对 它们 进行 排序 : 


nm -S -size-sort 
尔 数 的 大 小 后 ， 融 可 能 减少 它们 的 大 小 或 者 从 应 用 程序 中 移 除 不 必要 的 代码 。 


了 解 每 个 


转 到 9.9 节 。 


9.6.9 ”进程 使 用 的 库 有 多 大 ? 
要 了 解 进程 使 用 了 哪些 库 以 及 这 些 库 各 目的 大 小 ， 最 简单 的 方法 是 得 看 /proc 文 件 系统 中 的 进程 映射 。 文 件 
cat/proc/<pid>/map 显 示 的 是 每 个 库 及 其 代码 与 数据 的 大 小 。 当 你 知道 进程 使 用 了 哪些 库 之 后 ， 丈 有 可 能 淘汰 对 大 型 库 的 使 
这 样 做 的 时 候 必 须要 小 心 ， 因 为 移 除 大 型 库 示 必 会 减少 整个 系统 的 内 存 使 用 量 。 
Isof 来 确定 该 库 ) ， 库 束 已 经 被 加 载 到 了 内 存 。 任 何 新 应 用 程序 在 使 用 这 


位 


用 ,或 者 是 用 小 一 点 的 库 来 代替 它们 。 但 是 
个 库 的 时 候 都 不 需要 再 加 载 一 个 该 库 的 副本 到 内 存 。 让 程序 转 而 使 用 不 同 的 库 (即使 是 个 小 库 ) 实际 上 融会 增加 总 的 内 仔 使 用 


如 果 某 库 正 在 被 其 他 任何 应 用 程序 使 用 (可 以 运 


量 。 这 个 新 的 库 没有 被 其 他 进程 使 用 ， 因 此 需要 为 其 分 配 新 的 内 存 。 最 好 的 解决 方法 是 缩小 库 目 身 的 大 小 ， 或 是 修改 它们 以 便 使 


用 更 少 的 内 存 来 保存 库 的 特定 数据 。 如 果 可 行 ， 则 所 有 的 应 用 程序 都 将 受益 。 
。 人 否则 ， 转 到 9.9 世 。 


要 了 解 特 定 库 中 锐 数 的 大 小 ， 转 到 9.6.8 市 


9.6.10 ”哪些 消 数 分 配 堆 内 和 存 ? 
如 果 你 的 应 用 程序 是 用 C 或 C++ 编 写 的 ， 就 可 以 使 用 内 存 剖 析 器 memprof 来 找 出 哪些 函数 分 配 了 堆 内 存 。memprof 能 够 动 
已 将 会 给 出 应 用 程序 分 配 内 存 的 详细 


行 参数 ， 它 也 会 给 出 应 用 程序 分 配 内 


人 态 展示 应 用 程序 使 用 的 内 存量 是 如 何 增长 的 。 
如 果 你 的 应 用 程序 是 用 Java 编 写 的 ， 束 在 java 命 令 行 上 添加 -Xrunhprof 命 令 行 参 数 
汪 


言 息 。 如 果 你 的 应 用 程序 是 用 C# (Mono) 编写 的 ， 融 在 mono 命 令 行 上 添加 -profile 命 
音 误 很 难 被 侦 测 到 ， 


日 天 人 


存 的 详细 信息 。 
当 你 知道 了 哪些 消 数 分 配 了 最 多 的 内 存 之 后 ， 残 有 可 能 减少 被 分 配 的 内 存 大 小 。 由 于 内 存 便宜 ， 且 越界 和 
超 量 分 配 内 存 。 然 而 ， 如 果 一 个 特定 的 分 配 导 怪 了 内 存 问题 ， 那 么 仔细 分 析 最 小 分 配 就 可 能 在 


因此 ， 为 了 安全 考虑 ， 程 序 员 弟 各 
保证 安全 的 前 提 下 ， 显 闭 减 少 内 存 使 用 量 。 转 到 9.9 节 。 


9.7 ”优化 磁盘 1/O 使 用 情 / 


当 你 确定 是 磁盘 I/O 有 问题 后 ， 明 确 是 哪个 应 用 程序 引起 了 I/O 束 会 有 所 帮助 。 


图 9-5 给 出 了 确定 磁盘 I/O 使 用 原因 的 步骤 


调查 从 9.7.1 节 开始 。 


9.7.1 系统 强调 特定 人 磁盘 吗 ? 


在 扩展 统计 模式 下 运行 jostat， 寻 找平 均等 待 (await) 大 于 零 的 分 区 。await 是 等 待 请 求 被 啊 应 所 平均 花费 的 毫秒 数 。 这 个 
数值 越 高 ， 则 磁盘 超 负 傈 越 多 。 可 以 通过 查看 磁盘 的 读 写 流量 并 确定 其 是 否 接 近 该 驱动 器 可 以 处 理 的 最 大 量 来 确认 超 负 答 。 


如 果 单 个 驱动 器 上 的 很 多 文件 都 被 访问 了 ， 那 么 ， 将 这 些 文件 分 散 到 多 个 磁盘 束 可 能 提高 性 能 。 不 过 ， 首 先 要 确定 的 是 哪些 
文件 被 访问 了 。 


转 到 9.7.2 节 。 


9.7.2 ”哪个 应 用 程序 访问 了 磁盘 ? 


在 前 面 天 于 磁盘 1/O 的 章节 中 已 经 介绍 过 ， 确 定 哪个 进程 导致 了 大 量 的 MO 是 有 难度 的 ， 因 此 ， 我 们 必须 人 在 缺 少 直 接 实 现 该 
功能 工具 的 情况 下 来 试 闭 解决 这 个 问题 。 通 过 运行 top， 首 先 寻 找 非 空 闪 进程 。 对 于 每 个 这 样 的 进程 ， 转 到 9.7.3 市 。 


9.7.3 ”应 用 程序 访 梧 了 哪些 文件 ? 


首先 ， 通 过 strace， 用 strace-e trace=file 来 追踪 应 用 程序 中 所 有 与 文件 \/O 相 关 的 系统 调用 。 然 后 strace 用 摘要 信息 来 查看 
每 个 调用 花费 的 时 长 。 如 果 某 些 读 写 调用 完成 时 间 很 长 ， 那 么 这 个 进程 可 能 造成 了 |/O 的 缓慢 。 在 正常 模式 下 运行 strace 束 可 以 
发 现 是 从 哪个 文件 描述 符 进 行 读 写 的 。 要 把 这 些 文件 描述 符 映 射 回 文件 系统 中 的 文件 ， 我 们 可 以 查看 proc 文 件 系 统 。 
/proc/<pid>/fd/ 中 的 文件 是 从 文件 摘 述 符 到 实际 文件 的 符号 链接 。 该 目录 下 的 ls-1a 会 显示 进程 使 用 了 哪些 文件 。 通 过 了 解 进程 
访问 的 文件 ， 残 有 可 能 减少 该 进程 执行 的 |/O 量 ,将 其 更 均匀 地 分 散 于 多 个 磁盘 ， 或 者 将 其 迁移 到 更 快 的 磁盘 。 


确定 进程 访问 哪些 文件 后 ， 转 到 9.9 书 。 


9.8 ”优化 网 络 I/O 使 用 情 ; 


当知 道 网 络 友 生 了 问题 时 ，Linux 提 供 了 一 组 工具 来 确定 哪些 应 用 程序 涉及 其 中 。 但 是 ， 在 与 外 部 机 器 连接 时 ， 对 网 络 问题 
的 修复 束 不 完全 由 你 控制 了 。 


图 9-6 展 示 了 调查 网 络 性 能 问题 的 步骤 。 


调查 从 9.8.1 节 开始 。 


转 到 9.9 


转 到 9.9 转 到 9.9 


9.8.1 ”网 络 设备 友人 这 / 接 收 量 接近 理论 极限 了 吗 ? 


要 做 的 第 一 件 事 就 是 用 ethtoo| 来 确定 每 个 Ethernet 设 备 设置 的 硬件 速度 是 多 少 。 如 果 有 这 些 信息 的 记录 ， 就 可 以 调查 是 否 
有 网络 设备 处 于 饱和 状态 。Ethernet 设 备 和 /或 交换 机 容易 被 误 配 置 ，ethtool| 显 示 每 个 设备 认为 其 应 运行 的 速度 。 在 确定 了 每 个 
Ethernet 设 备 的 理论 极限 后 ， 使 用 iptraf (甚至 是 ifconfig) 来 明确 流 经 每 个 接口 的 流量 。 如 果 有 任何 网 络 设备 表现 出 饱和 ， 转 


到 9.8.3 节 。 人 否则 ， 转 到 9.8.2 节 。 


9.8.2 ”网 络 设 备 产 生 了 大 量 错 误 吗 ? 
网 络 流量 减缓 的 原因 也 可 能 是 大 量 的 网 络 错误 。 用 ifconfig 来 确定 是 否 有 接口 产生 了 大 量 的 错误 。 大 量 错 误 可 能 是 不 匹配 的 


Ethernet 卡 /Ethernet 交 换 机 设置 的 结果 。 联 系 你 的 网 络 管 理 员 ， 在 Web 上 搜索 过 到 类 似 问 题 的 人 ， 或 者 把 问题 e-mail 给 一 个 
Linux 网 络 新 闻 组 。 


转 到 9.9 节 。 


9.8.3 ”设备 上 流量 的 类 型 是 什么 ? 


如 果 特 定 设备 正在 服务 大 量 的 数据 ， 使 用 iptraf 可 以 跟踪 该 设备 发 送 和 接收 的 流量 类 型 。 当 知道 了 设备 处 理 的 流量 类 型 后 ， 
转 到 9.8.4 节 。 


9.8.4 ”特定 进程 要 为 流量 负责 吗 ? 


接 下 来 ,我们 想 要 确定 是 人 否 有 特定 进程 要 为 这 个 流量 负责 。 使 用 netstat 的 -p 选 项 来 查看 是 否 有 进程 在 处 理 流 经 网 络 端 口 的 


如 果 有 应 用 程序 要 对 此 负责 ， 转 到 9.8.6 书 。 如 果 没 有 这 样 的 程序 ， 则 转 到 9.8.5 节 。 


流量 是 哪个 远程 系统 友 壕 的 ? 
如 果 没 有 应 用 程序 应 对 这 个 流量 负责 ， 那 么 就 可 能 是 网 络 上 的 某 些 系统 用 无 用 的 流量 攻击 了 你 的 系统 。 要 确定 是 哪些 系统 友 
送 了 这 些 流 量 ， 要 使 用 iptraf 或 etherape。 


如 果 可 能 的 话 ， 请 与 系统 所 有 者 联系 ， 并 尝试 找 出 友 生 这 种 情况 的 原因 。 如 果 所 有 者 无 法 联系 上 ， 可 以 在 Linux 内 核 中 设置 
ipfilters， 永 久 丢 茎 这 个 特定 的 流量 ,或 者 是 在 远程 机 与 本 地 机 之 间 建 立 防火 墙 来 拦截 该 流量 。 


转 到 9.9 节 。 


9.8.6 ”哪个 应 用 程序 套 接 字 要 为 流量 负责 ? 


确定 使 用 了 哪个 套 接 字 要 分 两 步 。 第 一 步 ， 用 strace-e trace=file 跟 踪 应 用 程序 所 有 的 MO 系统 调用 。 这 能 显示 进程 是 从 哪 
些 文 件 描述 符 进 行 读 写 的 。 第 二 步 ， 通 过 得 看 proc 文 件 系统 ， 将 这 些 文 件 搞 述 符 映 射 回 套 接 字 。/proc/<pid>/fd/ 中 的 文件 是 从 


文件 摘 述 符 到 实际 文件 或 套 接 字 的 符号 链接 。 该 目录 下 的 ls-la 会 显示 特定 进程 全 部 的 文件 摘 述 待 。 名 字 中 市 有 socket 的 是 网 络 套 
接 字 。 之 后 就 可 以 利用 这 些 信息 来 确定 程序 中 的 哪个 套 接 字 产 生 了 这 些 通信 。 


转 到 9.9 节 。 


9.9 ”尾声 


当 你 看 到 这 里 的 时 候 ， 你 的 问题 可 能 得 到 也 可 能 没有 得 到 解决 ， 但 是 ， 你 会 获取 大 量 摘 述 它 的 信息 。 在 Web 和 新 闻 组 上 搜 
索 遇 到 相同 问题 的 人 ， 向 他 们 和 开 友 者 友 电 子 邮件 ， 看 看 他 们 是 如 何 解决 问题 的 。 关 试 一 个 解决 方案 ， 并 观察 系统 或 应 用 程序 的 
行为 是 否 友 生 了 变化 。 每 次 尝试 新 方案 时 ， 请 转 到 9.2 节 重新 开始 系统 诊断 ， 因 为 ， 每 一 个 修复 都 可 能 会 让 应 用 程序 的 行为 友 生 


变化 。 


9.10 ”本章 小 结 


本 草 提供 了 综合 运用 Linux 性 能 工具 跟 路 不 同类 型 性 能 问题 的 万 法 。 昌 然 这 个 万 法 不 可 能 捕捉 到 每 一 种 可 能 出 错 的 性 能 问 
题 ， 但 是 它 有 助 于 友 现 一 些 比 较 常 见 的 问题 。 此 外 ， 即 便 你 面 对 的 问题 在 这 里 没有 涉及 ,你 所 收集 的 数据 仍然 是 有 用 的 ， 因 为 ， 
这 些 数 据 可 能 会 开局 调查 的 不 同 万 面 。 


接 下 来 的 几 章 将 演示 如 何在 Linux 系 统 中 使 用 该 方法 找 出 性 能 问题 。 


第 10 草 ”性 能 退路 1: 受 CPU 限 制 的 应 用 程序 (GIMP) 


本 草包 售 了 一 个 例子 : 如 何 用 Linux 性 能 工具 在 受 CPU 限 制 的 应 用 程序 中 寻找 并 修复 性 能 问题 。 
阅读 本 章 后 ， 你 将 能 够 : 

:在 受 CPU 限 制 的 应 用 程序 中 明确 所 有 的 CPU 被 哪些 源 代 码 行使 用 。 

用 ltrace 和 oprofile 弄 清楚 应 用 程序 调用 各 种 内 部 与 外 部 函数 的 频率 。 

: 在 应 用 程序 源 代码 内 寻找 模式 ， 在 线 搜索 应 用 程序 的 行为 表现 与 可 能 的 解决 方案 。 


:以 本 章 为 模板 ， 跟 踪 与 CPU 相关 的 性 能 问题 。 


10.1 ” 受 CPU 限 制 的 应 用 程序 


本 草 的 调查 对 象 是 一 个 受 CPU 限 制 的 应 用 程序 。 其 重点 在 于 能 够 对 受 CPU 限 制 的 应 用 程序 进行 优化 ， 因 为 ， 这 是 最 弟 见 的 


性 能 问题 之 一 。 
通常 ， 这 也 是 高 度 调 优 的 应 用 程序 的 最 后 战线 。 


当 消 除了 磁盘 和 网 络 瓶 颈 后 ， 一 个 应 用 程序 束 变 成 了 受 CPU 限 制 的 。 此 外 ， 与 改进 CPU 相 比 ， 购 买 更 快 的 磁盘 或 更 多 的 内 
仔 要 容易 得 多 ， 因 此 ， 如 果 程 序 是 受 CPU 限 制 的 ， 那 么 比 起 仪 仅 买 一 个 新 系统 来 讽 ， 能 够 追踪 并 修复 CPU 性 能 问题 融 是 一 项 重 
要 近 能 了 。 


10.2 ”确定 问题 


性 能 追 踊 的 第 一 步 是 确定 要 调查 的 问题 。 本 例 中 ， 我 选择 调查 使 用 GIMP 时 出 现 的 性 能 问题 ，GIMP 是 一 个 开源 的 图 像 处 理 
程序 。 它 能 对 一 个 图 像 的 各 个 方面 进行 分 割 ， 但 它 也 有 一 组 强大 的 过 滤器 ， 能 够 用 多 种 方式 对 图 像 进 变形 和 修改 。 这 些 过 滤器 根 
据 一 些 复杂 的 算法 来 改变 图 像 的 外 观 。 通 常情 况 下 ， 过 滤器 的 工作 需要 很 长 时 间 才 能 完成 ， 并 且 非 党 耗费 CPU 资 源 。 特 别 是 其 
中 的 一 个 过 滤器 Von Gogh ( 巷 局 ，LIC) ， 它 接收 一 个 图 像 为 输入 ， 将 其 修改 为 看 上 去 像 荡 局 风格 的 画作 。 这 个 过 滤器 所 花费 
的 时 间 特 别 长 。 过 滤器 运行 时 使 用 了 几乎 100% 的 CPU 资源 ， 且 完成 时 间 长 达 几 分 钟 。 完 成 时 长 涉及 的 因素 包括 : 图 像 大 小 、 机 
器 CPU 的 速度 ， 以 及 传递 给 过 滤器 的 参数 值 。 本 章 中 ， 我 们 用 Linux 性 能 工具 调查 为 什么 这 个 过 滤器 这 么 慢 ， 同 时 还 要 弄 清 楚 是 
人 否 有 方法 能 提高 它 的 速度 。 


10.3 ”找到 基 线 /设置 目标 


任何 性 能 追踪 的 第 一 步 就 是 要 确定 问题 当前 的 状况 。 对 GIMP 过 滤器 而 言 ， 我 们 需要 确定 它 在 特定 图 像 上 运行 要 花 多 少时 
间 ， 这 丈 是 基准 时 | 间 。 一 旦 掌握 了 这 个 基准 时 间 ， 接 下 来 束 可 以 尝试 优化 ， 看 看 是 否 减 少 了 它 的 执行 时 间 。 有 时 候 ， 计 量 某 个 工 
作 耗 费 的 时 间 是 很 难 的 ， 不 像 拿 个 秒表 那么 简单 ， 因 为 当 我 们 相当 耗费 CPU 资源 的 作业 正在 运行 的 时 候 ， 操 作 系统 可 能 会 调度 
其 他 任务 。 在 这 种 情况 下 ， 如 果 除了 计算 密集 型 作业 之 外 还 有 其 他 作业 也 在 运行 ， 那 么 墙 钟 时 间 也 许 会 大 大 超过 该 进程 实际 使 用 
的 CPU 时 间 。 融 这 点 来 咒 ， 我 们 是 年 运 的 ， 当 运行 过 滤器 时 ， 通 过 观察 top， 可 以 看 到 lic 进 程 占用 了 绝 大 部 分 的 CPU 使 用 量 ， 如 
清单 10.1 所 示 。 


清单 10.1 


[ezolt@localhost ktracer]$ top 


top - 08:24:48 up 7 days, 9:08， 6 users, load average: 1.04, 0.64, 0.76 


PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 
32744 ezolt 25 0 53696 45m 1im R 89.6 14.6 0:16.00 lic 
2067 root 15 0 69252 21im 17mS 6.0 6.8 161:56.22 X 


32738 ezo0olt 19 0 35292 27m 14m S 2.3 8.7 0:05.08 gimp 


由 此 ， 我 们 可 以 推断 在 运行 过 滤器 时 ，GIMP 实 际 上 派生 出 一 个 独立 进程 来 运行 。 因 此 ， 当 过 滤器 运行 时 ， 我 们 束 可 以 利用 
ps 来 人 退 蹊 该 进程 消耗 了 多 少 CPU 时 间 ， 以 及 它 是 什么 时 候 结束 的 。 知 道 了 使 用 top 的 过 滤器 的 PID 之 后 ， 可 以 运行 清单 10.2 中 的 
循环 ， 要 求 ps 周期 性 地 观察 该 过 滤器 使 用 了 多 少 CPU 时 间 。 


清单 10.2 


while true ; do Sleep 1 ; ps 32744; done 
PID TTY STAT TIME COMMAND 
32744 pts/0 RR 2:46 /usr/local/lib/gimp/2.0/plug-ins/lic -gimp 8 6 -run 0 


注 
OR 如 果 在 没有 秒表 的 情况 下 对 一 个 应 用 程序 计 ， 你 可 以 把 time 和 cat 当 作 简 易 的 秒表 来 用 。 只 需 在 想 要 开始 计时 的 时 候 键 


入 time cat， 然 后 在 结束 时 按 下 <Ctt-D> 组 合 键 即 可 。time 将 会 显示 已 经 过 的 时 间 。 


在 参照 图 像 (从 我 的 地 下 室 获 取 的 图 片 ) 上 运行 ic 过 滤器 并 用 刚才 摘 述 的 ps 方法 对 该 过 滤 嚣 计时， 我们 可 以 从 清单 10.2 中 看 
出 来 ， 处 理 整 个 图 像 伦 费 了 2 分 46 秒 。 这 个 时 间 残 是 我 们 的 基准 时 间 。 既 然 知道 了 该 过 滤器 直接 运行 耗费 的 时 间 ， 我 们 惑 可 以 设 
置 本 次 性 能 追踪 的 目标 了 。 如 何 为 性 能 调查 设置 合理 的 目标 并 非 总 是 清晰 明了 的 。 一 个 合理 的 目标 值 取决 于 多 个 因素 ， 包 括 根据 
寺 定 问题 和 用 户 需 求 已 经 完成 的 调 优 。 通 单 ， 最 好 的 方法 是 以 有 相同 情况 且 性 能 更 快 的 应 用 程序 为 基础 来 设置 目标 。 可 异 的 是 ， 
我 们 不 知道 还 有 哪个 GIMP 过 滤器 是 完成 类 似 工作 的 ， 因 此 ， 我 们 必须 做 出 猜测 。 对 一 段 相 对 未 调 优 的 代码 来 说 ， 一 般 5% ~ 
10% 的 性 能 优化 是 一 个 合理 的 目标 ， 所 以 ， 我 们 设 定 了 10% 的 速度 提升 ， 即 运行 时 间 为 2 分 30 秒 。 

既然 目标 已 经 挑 好 了 ， 我 们 束 需 要 一 种 方法 来 保证 我 们 的 调 优 市 给 过 滤器 结果 的 变化 是 可 以 接受 的 。 此 时 ， 我 们 将 在 参照 图 
像 上 运行 切 始 过 滤器 ， 并 把 其 结果 记录 在 另 一 个 文件 中 。 这 样 ， 我 们 可 以 将 优化 后 的 过 滤器 得 出 与 切 始 过 滤器 输出 进行 比较 ， 看 
看 优化 是 否 改 变 了 输出 。 


10.4 ”为 性 能 追踪 配置 应 用 程序 


我 们 调查 的 下 一 步 是 为 性 能 追踪 设置 应 用 程序 ， 用 符号 重新 编译 该 程序 。 符 号 能 让 性 能 工具 (比如 oprofile) 调查 哪些 函数 
和 源 代码 行 消耗 了 CPU 时 间 。 

回 到 GIMP， 我 们 从 其 网 站 下 载 最 新 的 GIMP 源 代码 压缩 包 ， 然 后 重新 编译 它 。 对 GIMP 和 许多 开源 软件 来 说 ， 重 新 编译 的 
第 一 步 就 是 运行 configure 命 令 ， 产 生 将 用 于 构建 应 用 程序 的 生成 文件 。configure 命 令 向 生成 文件 传递 出 现在 CFLAGS 环 境 变 量 
中 的 所 有 标志 。 在 这 种 情况 下 ， 由 于 我 们 希望 用 符号 构建 GIMP， 因 此 设置 的 CFLAGS 变 量 含有 -g3。 这 就 使 得 符号 包含 在 生成 
的 二 进 制 文件 中 。 清 单 10.3 显 示 了 这 个 命令 ， 覆 盖 了 CFLAGS 环 境 变 量 的 当前 值 ， 并 将 其 设置 为 -g3。 


清单 10.3 


[root@localhost gimp-2.0.3]# env CFLAGS=-g3 ./configure 


之 后 ,我们 生成 并 安装 包含 所 有 符号 的 GIMP 版 本 ， 当 运行 这 个 版 本 时 ， 性 能 工具 将 会 告诉 我 们 时 间 都 消耗 在 了 哪里 。 


10.5 ”安装 和 配置 性 能 工具 


如 果 性 能 工具 还 没有 安装 ， 那 么 追 叶 的 下 一 步 束 是 安 六 它们 。 尽 管 看 上 去 这 是 件 容易 的 事 儿 ， 但 它 党 党 涉及 跟 路 定制 包 的 分 
发 ， 甚 至 是 从 头 开始 对 工具 进行 重新 编译 。 本 例 中 ， 我 们 在 Fedora Core 2 上 使 用 oprofile， 因 此 ， 我 们 既 要 跟踪 oprofile 内 核 
模块 (在 Fedora 下 ， 它 只 包含 在 对 称 多 处 理 (SMP) 内 核 中 ) ， 也 要 跟 路 oprofile 软 件 包 。 同 样 可 能 让 人 党 得 有 总 思 的 还 有 用 
ltrace 性 能 工具 查看 被 调用 的 库 销 数 及 其 被 调用 的 频率 。 盏 运 的 是 ，ltrace 包 含 在 Fedora Core 2 中 ， 所 以 我 们 不 需要 跟 踊 它 。 


10.6 运行 应 用 程序 和 性 能 工具 


接 下 来 ， 我 们 运行 应 用 程序 ， 并 用 性 能 工具 进行 测量 。 由 于 lic 过 滤器 直接 由 GIMP 调 用 ， 因 此 ， 我 们 使 用 的 工具 必须 能 够 附 
加 到 已 运行 进程 ， 且 能 对 其 进行 监控 。 


\ 一 /一 


对 oprofile 来 说 ， 我 们 启动 oprofile， 运 行 过 滤器 ， 然 后 在 过 滤器 完成 工作 后 停止 oprofile。 因 为 lic 过 滤器 在 运行 时 占用 了 
将 近 90% 的 CPU， 所 以 oprofile 收 集 的 系统 整体 样本 将 主要 与 lic 过 滤器 相关 。 当 lic 开 始 运 行 时 ， 我 们 在 另 一 个 窗口 启动 
oprofile。 当 lic 结 束 时 ， 我 们 停止 oprofile。oprofile 的 启动 和 停止 如 清单 10.4 所 示 。 


清单 10.4 


[root@localhost ezolt]# opcontrol --Start 
Profiler running,. 

[root@localhost ezolt]# opcontrol --dump 
[root@localhost ezolt]# opcontrol -.-stop 


Stopping profiling. 


运行 |trace 必 定 存 企 一 点 差异 。 在 过 滤器 局 动 后 ，|trace 可 以 附加 到 运行 中 的 进程 上 。 与 oprofile 不 同 ，ltrace 附 加 到 进程 后 
会 降低 整个 进程 的 速度 。 这 会 导致 每 个 库 的 调用 时 间 增 加 一 些 误 差 ， 但 是 疡 却 提供 了 每 个 调用 的 次 数 信息 。|trace 如 清单 10.? 所 


人 河 \。 


清单 10.5 


[ezolt@localhost ktracer]$ ltrace -p 32744 -C 


% time seconds usecs/call calls function 
43.61 156.419150@ 254 614050 rint 
16.04 57.522749 281 204684 gimp rgb to hsl 
14.92 53.513609 261 204684 g_rand double range 
13.88 49.793988 243 204684 gimp rgba set uchar 
11.55 41.426779 202 204684 gimp pixel rgn get pixel 
0.00 0 .006287 6287 1 gtk widget destroy 
0.00 0.003702 3702 1 g_rand new 
0.00 0 .003633 3633 1 gimp progress init 
0.00 0.001915 1915 1 gimp drawable get 
0.00 0.001271 een 1 gimp drawable mask bounds 
0.00 0 .000208 208 1 g malloc 
0.00 0.000110 110 1 gettext 
0.00 0.000096 96 1 gimp pixel rgn init 
100.00 358.693497 1432794 total 


要 获得 库 调 用 的 全 部 数量 ， 可 以 让 Itrace 持 续 运 行 直 到 完成 。 但 是 ， 这 需要 很 多 的 时 间 ， 所 以 在 这 种 情况 下 ， 经 过 一 段 较 长 
时 间 后 融 按 下 < Ctrl-C> 组 合 键 。 这 个 方法 不 见得 总 是 有 效 ， 原 因 在 于 应 用 程序 可 能 会 经 历 不 同 的 执行 阶段 ， 如 果 停 止 时 间 过 
早 ， 可 能 吏 无 法 得 到 应 用 程序 调用 函数 的 完整 信息 。 不 过 ， 这 个 短小 的 样本 至 少 是 我 们 分 析 的 起 点 。 


10.7 ”分 析 疆 


既然 我 们 已 经 利用 oprofile 收 集 到 了 过 滤器 运行 的 时 间 信 息 ， 现 在 就 必须 对 结果 进行 分 析 ， 寻 找 改 变 其 执行 和 提高 其 性 能 的 
方法 。 


首先 ,我 们 用 oprofile 查 看 整个 系统 是 如 何 消 耗 时 | 间 的 ， 结 果 如 清单 10.6 所 示 。 


清单 10.6 


[root@localhost ezolt]# opreport -f | less 


CPU: CPU with timer interrupt, speed 0 MHz (estimated) 
Profiling through timer interrupt 
TIMER:0Q| 
samples| %| 


69896 36.9285 /usr/local/lib/libgimp-2.0.s0.0.0.3 
44237 23.3719 /usr/local/lib/libgimpcolor-2.0.s0.0.0.3 
28386 14.9973 /usr/local/lib/gimp/2.0/plug-ins/lic 
16133 8.5236 /usr/lib/libglib-2.0.s0.0.400.0 


如 清单 10.6 所 示 ，75% 的 CPU 时 间 消 耗 在 了 lic 进 程 或 与 GIMP 相 关 的 库 上 。 极 有 可 能 这 些 库 是 被 lic 进 程 调用 的 ， 结 合 ltrace 


给 我 们 的 信息 与 oprofile 给 出 的 信息 ， 我 们 可 以 确认 这 个 事实 。 清 单 10.7 显 示 了 过 


才 滤 器 运行 一 小 部 分 的 情况 下 进行 的 库 调 用 。 


清单 10.7 

[ezolt@localhost ktracer]$ ltrace -p 32744 -C 

% time seconds Usecs/call calls function 

46.13 101.947798 272 374307 rint 
15.72 34.745099 278 124862 g rand double range 
14.77 32.645236 261 124862 gimp pixel rgn get pixel 
13.081 28.743856 230 124862 gimp_rgba_set_Uchar 
10.36 22.905472 183 124862 gimp_rgb to_hsl 
0.00 0.006832 6832 1 gtk widget destroy 
@.00 0.003976 3976 1 gimp progress init 
0.00 0.003631 3631 1 g_rand new 
0.00 0.001992 1992 1 gimp drawable get 
@.00 0.001802 1802 1 gimp drawable mask bounds 
0.00 0.000184 184 1 g malloc 
@.00 @.000118 118 1 gettext 
0.00 0.000100 100 1 gimp pixel rgn init 

100.00 221.006096 873763 total 


接 下 来 ， 我 们 要 调查 oprofile 提 供 的 关于 每 个 库 内 部 CPU 时 间 消 耗 的 信息 ， 看 看 库 中 的 热点 函数 是 否 与 过 滤器 调用 的 那些 一 
致 。 对 于 最 占用 CPU 时 间 的 前 三 个 库 ， ER libgimp、 
库 和 |ic 进 程 的 结果 显示 在 清单 10.8 中 。 


libgimp-color 


清单 10.8 


[/tmp]# opreport -1f /usr/local/lib/libgimp-2.0.s0.0.0.3 
CPU: CPU with timer interrupt, speed @ MHz (estimated) 


Profiling through timer interrupt 


samples %S symbol name 
27136 38.8234 gimp pixel rgn get pixel 
14381 20.5749 gimp drawable get tile2 


6571 9.4011 gimp tile unref 

6384 9.1336 gimp drawable get tile 

3921 5.6098 gimp tile cache insert 

3322 4.7528 gimp tile ref 

3057 4.3736 anonymous Symbol from section .plt 
2732 3.9087 gimp tile width 

1998 2.8585 gimp tile height 


[/tmp]# opreport -1f /usr/local/lib/,libgimpcolor-2.0.s0.0.0.3 
CPU: CPU with timer interrupt, speed 0 MHz (estimated) 


Profiling through timer interrupt 


samples % symbol name 

31475 71.1508 gimp rgba set uchar 
6251 14.1307 gimp bilinear rgb 
2941 6.6483 gimp rgb multiply 
2394 5.4118 gimp rgb add 

466 1.0534 gimp rgba get uchar 
323 0.7302 gimp rgb to hsl 


[/tmp]# opreport -lf /usr/local/lib/gimp/2.0/plug-ins/lic 
CPU: CPU with timer interrupt, speed 0 MHz (estimated) 


Profiling through timer interrupt 


samples %S symbol name 

11585 40.8124 getpixel 

5185 18.2660 lic image 

4759 16.7653 peek 

3287 11.5797 filter 

1698 5.9818 peekmap 

1066 3.7554 anonymous Symbol from section .plt 


316 1.1132 compute lic 
232 0.8173 rgb to _ hsl 
111 0.3910 grady 
106 0.3734 gradx 
41 0.1444 poke 


通过 比较 清单 10.8 中 的 ltrace 输 出 和 清单 10.9 中 的 oprofile 输 出 可 以 得 天 : |ic 过 滤器 反复 调用 的 库 函 数 消 耗 了 全 部 时 间 。 


接 下 来 ， 我 们 调查 lic 过 滤器 的 源 代 码 ， 确 定 它 是 如 何 构成 的 ， 它 的 热点 函数 究竟 起 了 怎样 的 作用 ， 以 及 过 滤器 是 如 何 调用 
GIMP 库 负数 的 。 生 成 大 多 数 样 本 的 |ic 国 数 是 getpixel， 如 清单 10.9 中 的 opannotate 输 出 所 示 。opannotate 在 源 代 码 的 左 侧 以 


列 的 形式 依 序 显 示 了 样本 数量 和 所 占 样本 忌 量 百分比 。 这 使 你 能 查看 源 代码 ， 精 确定 位 哪些 代码 行 是 热点 。 


清单 10.9 


opannotate --Source /usr/local/lib/gimp/2.0/plug-ins/lic 


‘Static void 


‘getpixel (GimpPixelRgn *src rgn, 


GimpRGB Ss 
gdouble Us 
gdouble v) 


428 1.5961 :{ /* getpixel total: 11198 41.7587 */ 
register gint x1, yi1, x2, y2; 
gint width, height,; 
static GimpRGB pp[4]; 


98 0.3655 : Width = src_ rgn->w,; 
72 0.2685 : height = src rgn->h; 


1148 4.2810 : xi 
1298 4.8404 : yt 


(gint)u; 


(gint)yv; 


603 2.2487 : if (x1 < 0) 


1 0.0037 : x1 = width - (-x1 % width); 
else 
1605 5.9852 : xf = x1 % width; 


87 0.3244 : if (y1 < 0) 
y1 = height - (-y1 % height); 


1264 4.7136 : y1 


y1 % helght ; 


1358 5.0641 : x2 = (x1 + 1) % width; 
1379 5.1425 : y2 = (y1 + 1) % height; 
320 1.1933 : peek (src rgn, x1, y1, &pp{0]): 


267 0.9957 : peek (src rgn, x2, y1, &pp[1]): 
285 1.0628 : peek (src rgn, x1, y2, &pp[2]); 
244 0.9099 : peek (src rgn, x2, y2, &pp[3]): 


706 2.6328 : *p = gimp bilinear rgb (u, v, pp): 
35 0.1305 :} 


天 于 get_pixel 消 数 还 有 一 些 有 趣 的 事 儿 需要 注意 。 首 先 ， 它 调用 gimp_bilinear_rgb 消 数 ， 该 立 数 是 GIMP 库 中 的 一 个 


执 点 


AAAMMAAA 


六 数 。 其 次 ， 尼 调用 了 peek 函 数 4 次 。 如 果 get_pixel 调 用 执行 多 次 ， 那 么 peek 函 数 执行 的 次 数 融 是 它 的 4 俐 。 用 opannotate 得 
看 peek 遂 数 (如 清单 10.10 所 示 ) ， 可 以 看 到 它 调 用 了 gimp_pixel rgn get pixel 和 gimp rgba set uchar， 它 们 分 别 是 
libgimp 和 libgimp-color 的 高 级 函数 。 


清单 10.10 


Static void 


:peek (GimpPixelRgn *src rgn, 


gint X ， 
gint Ws 
GimpRGB 和 


481 1,.7937 :{ /* peek total: 4485 16.7251 */ 
static guchar data[4] = { 0, }; 


1373 5.1201 : gimp pixel rgn get pixel (src rgn, data, x, y); 


2458 9.1662 : gimp rgba set uchar (color, data[0], data[1], data[2], 
data[3]); 


173 0.6451 :} 


尽管 不 是 很 清楚 究竟 过 滤器 是 干什么 的 或 者 库 调 用 的 作用 是 什么 ， 还 是 有 几 个 让 人 想 去 了 解 的 要 点 。 首 先 ，peek 的 功能 听 
起 来 像 是 从 图 像 获取 像素 以 便 过 滤器 对 它们 进行 处 理 。 我 们 马上 残 可 以 验证 这 个 预感 。 其 次 ， 过 滤器 中 的 大 部 分 时 | 间 似乎 并 不 是 
用 于 在 图 像 数 据 上 运行 数学 算法 。 并 没有 将 所 有 CPU 时 间 都 用 于 根据 像素 数值 进行 计算 ,该 过 滤器 好 像 伦 费 了 大 部 分 时 间 来 检 
索 待 处 理 的 像素 。 如 果真 是 这 样 ， 那 么 这 一 后 也 许 能 修复 。 


10.8 ”转战 网 络 


既然 我 们 已 经 发 现 了 大 部 分 时 间 里 用 的 是 哪些 GIMP 消 数 ， 现 在 我 们 束 必 须 弄 清楚 这 些 消 数 是 什么 ， 并 尽 可 能 优化 它们 的 使 
用 .。 


首先 ,我们 在 Web 上 搜索 pixel rgn_get pixel， 并 尝试 明确 它 是 做 什么 的 。 开 始 出 错 几 次 后 ， 清 单 10.11 给 出 的 链接 和 信息 
证 实 了 我 们 对 pixel rgn_get_pixel 功 能 的 猜测 。 


清单 10.11 


"There are calls for pixel rgn get pixel, row, col, and rect, which grab 
data from the image and dump it into a buffer that you've pre-allocated. 
And there are Set calls to match. Look for "Pixel Regions" in gimp.h,， 
(from http://gimp-plug-ins.sourceforge.net/doc/Writing/html/sect- 
image.html ) 


同时 ， 清 单 10.12 中 的 信息 表明 避免 使 用 pixel_rgn_get_ calls 是 个 好 主意 。 


清单 10.12 


“Note that these calls are relatively slow, they can easily be the 
slowest thing in your plug-in. Do not get {or set) pixels one at a time 
using pixel rgn [getlset] pixel if there is any other way. " {fronm 
http://www.home.unix-ag.org/simon/gimp/guadec2002/gimp- 
plugin/html/imagedata.html) 


此 外 ， 通 过 Web 搜 索 找 到 函数 的 源 代 码 ， 很 方便 地 知道 了 gimp rgb set_ uchar 函 数 的 信息 。 如 清单 10.13 所 示 ， 该 调用 就 
是 把 呈现 单一 颜色 的 红色 、 绿 色 、 蓝 色 值 都 放 入 GimpRGB 结 构 中 。 


清单 10.13 


VOld 
gimp_rgb set uchar (GimpRGB *rgb ， 


guchar 人 
guchar 9g, 
guchar b) 
| 
g_return if fall (rgb != NULL ) ; 
rgb->r = (gdouble) r / 255.0; 
rgb->g = (gdouble) g / 255.0; 
rgb->b = (gdouble) b / 255.0; 
} 


从 Web 收 集 的 信息 证 实 了 我 们 的 猜测 : 销 数 pixel_rgn_get_pixel 是 从 图 像 抽取 数据 的 一 种 万 法 ， 而 涪 数 
gimp_rgb_set_uchar 则 仅仅 获取 从 Pixel_rgn_get_pixel 返 回 的 颜色 数据 ， 并 将 它们 送 入 GimpRGB 数 据 结构 中 。 


我 们 不 但 看 到 了 如 何 使 用 这 些 国 数 ， 而 且 其 他 页 面 也 暗示 ， 如 果 我 们 想 要 过 滤器 的 性 能 达到 赢 峰 ， 那 么 这 些 函 数 可 能 不 是 最 
好 的 选择 。 其 中 一 个 网 页 (http://www.home.unix-ag.org/simon/gimp/guadec2002/gimp- 
plugin/html/efficientaccess.html) 建议 通过 使 用 GIM PP 图像 缓存 有 可 能 提高 性 能 。 另 一 个 网 站 (http://gimp-plug- 
ins.sourceforge.net/doc/Writing/html/sect-tiles.html) 则 建议 有 可 能 通过 重 写 过 滤器 使 其 更 高 效 地 访问 图 像 数 据 来 提高 性 


ab 
有 Bb。 


10.9 ”增加 图 像 缓 仔 


网 站 解释 GIMP 以 一 种 稍 显 怪诞 的 方式 管理 图 像 。 与 使 用 大 的 数组 保存 图 像 不 同 ，GIMP 将 图 像 分 解 为 一 组 分 上 请， 这 些 分 片 
的 宽度 都 是 64x 64。 当 过 滤器 想 要 访问 图 像 中 的 一 个 特定 像素 时 ，GIMP 就 加 载 相应 的 分 片 ， 然 后 找到 并 返回 该 像素 的 值 。 每 个 
检 款 特定 像素 的 调用 都 可 能 会 很 慢 。 如 果 对 每 一 个 像素 都 重复 这 个 过 程 ， 那 么 GIMP 重 载 用 于 检索 像素 值 的 分 片 融会 显著 降低 性 
能 。 幸 运 的 是 ，GIMP 提 供 了 一 种 方法 来 缓存 旧 的 分 片 值 ， 每 一 次 使 用 的 是 这 个 缓存 值 而 不 是 重 载 分 片 。 这 将 会 提高 性 能 。 
GIMP 提 供 的 缓存 量 可 以 用 gimp tile_cache_ntiles 调 用 来 控制 。 该 调用 当前 在 lic 内 部 使 用 ， 并 将 缓 仔 设置 为 图 像 分 片 数量 的 两 


倍 。 


即便 这 个 缓存 看 上 去 够 用 了 ，GIMP 可 能 还 会 需要 更 大 的 缓存 。 测 试 方式 很 简单 ， 将 组 存量 增 加 到 一 个 非常 大 的 值 ， 然 后 看 
看 性 能 是 否 有 所 提升 。 因 此 ， 本 例 中 ， 我们 把 组 存量 增加 到 通常 使 用 量 的 10 售 。 缓 存 值 加 大 后 ， 重 新 运行 过 滤器 ， 检 索 时 间 为 2 


分 40 秒 。 昌 然 所 用 时 间 减 少 了 6 秒 ， 但 是 还 是 没有 达到 目标 时 间 2 分 30 秒 。 这 表示 我 们 必须 从 其 他 方面 来 提升 性 能 。 


10.10 遇 到 (分 厂 引 友 的 ) 制约 


除了 使 用 分 片 缓 仔 之 外 ， 网 页 提出 了 一 种 更 好 的 方法 来 提高 get_pixe| 的 性 能 。 通 过 直接 访问 像素 信息 (不 调用 
gimp_pixel_rgn_get_pixel) ， 可 以 显著 提高 像素 访问 的 性 能 。 


GIMP 为 过 滤器 编程 者 提供 了 一 种 直接 访问 图 像 分 片 的 方法 。 之 后 过 滤器 束 可 以 像 访 问 一 个 数组 一 样 访问 图 像 数 据 ， 而 不 用 
请 求 对 GIMP 库 的 调用 。 但 是 ， 这 里 有 个 问题 。 当 和 直接 访问 像素 信息 时 ， 它 只 针对 当前 分 厂 。 因 此 ，GIMP 将 遍历 图 像 中 的 全 部 
分 请 ， 以 便 你 最 终 得 到 图 像 中 的 所 有 像素 ， 可 是 你 却 无 法 同时 访问 它们 。 只 能 查看 单个 分 片 的 像素 ， 而 这 与 |ic 访 问 数据 的 方式 不 
相符 。 当 lic 过 滤器 在 特定 位 置 产 生 一 个 新 的 像素 时 ， 它 是 基于 其 周围 像素 的 值 来 计算 这 个 新 值 。 所 以 ， 如 果 是 在 一 个 分 片 的 边 绿 
产生 了 新 像素 ，lic 过 滤器 束 需 要 其 周围 所 有 像素 的 数据 。 但 是 ， 这 些 像素 可 能 是 在 图 像 的 上 一 个 分 片上 ， 也 可 能 是 在 下 一 个 分 片 
上 。 由 于 该 像素 信息 不 可 用 ， 图 像 过 滤器 将 不 会 使 用 这 个 优化 的 访问 方法 。 


10.11 解决 问题 


由 于 我 们 已 经 判定 读 取 像 素 值 很 点 时 间 ， 这 里 还 有 另 一 种 方法 可 以 解决 这 个 问题 。 我 们 必须 开始 审视 过 滤器 是 如 何 运行 的 。 
在 它 生 成 新 图 像 时 ， 它 会 重复 请 求 同 一 个 像素 。 这 是 因为 新 像素 的 值 是 根据 其 周围 像素 的 值得 来 的 ， 因 此 ， 在 对 图 像 运 行 过 滤器 
的 过 程 中 ， 每 个 像素 会 被 其 8 个 邻居 像素 访问 。 这 束 意 味 着 图 像 中 的 每 个 像素 都 将 被 其 每 一 个 邻居 像素 读 取 ， 其 结果 就 是 它 将 被 


至 少 读 取 9 次 。 


调用 GIMP 库 的 开销 是 很 大 的 ， 所 以 我 们 只 想 对 每 个 像素 进行 一 次 这 样 的 操作 ， 而 不 是 9 次 。 对 图 像 访问 可 能 的 优化 是 : 过 
滤器 局 动 时 将 整个 图 像 读 入 一 个 本 地 数组 ， 在 过 滤器 运行 期 间 束 访问 这 个 本 地 数组 ， 而 不 是 在 每 次 想 要 访问 数据 时 调用 GIMP 库 
函数 。 这 个 方法 可 以 显著 降低 得 找 像素 数据 的 开销 。 每 次 访问 数据 时 不 再 进行 几 个 函数 调用 ， 取 而 代 之 的 是 只 访问 本 地 数组 。 过 
滤器 初始 化 时 ， 用 malloc 分 配 该 数组 ， 并 用 像素 数据 进行 填充 。 具 体操 作 如 清单 10.14 所 示 。 


清单 10.14 


int g image width, g image height; 


GimpRGB *g cached image ; 


void cache image (GimpPixelRgn *src rgn,int width,int height) 
{ 

static guchar data[4] ; 

门下、 其 二 


GimpRGB *current pixel,; 


g_image width = Width ; 


g_image height = helght ; 


g_cached image = malloc(sizeof (GimpRGB)*width*height), 


current pixel = g_ cached image; 


/* Malloc */ 
for (y = 0; y < height; y++) 


{ 
for (x = 0; x < width; Xx++) 
{ 
gimp pixel rgn get pixel (src_rgn, data, x, y); 
gimp _rgba set uchar (current pixel, data[0], data[1], data[2], 
ata[3]); 
current pixel++ ; 
} 
} 


同时 ， 阔 数 peek 也 重新 编写 为 只 访问 这 个 本 地 数组 ， 而 不 再 调用 GIMP 库 函数 。 具 体操 作 如 清单 10.15 所 示 。 


清单 10.15 


static void peek (GimpPixelRgn *src rgn, 


gint 关 ， 
gint y， 
GimpRGB *COlOr) 
{ 
*Color = g cached image[y*g image width + x]; 
} 


那么 ， 有 效果 吗 ” 当 我 们 用 新 方法 运行 过 滤器 时 ， 运 行 时 间 减 少 了 56 秒 ! 刚好 在 目标 时 间 荡 围 2 分 30 秒 内 ， 性 能 有 了 明显 提 
a 


虽然 令 人 印象 深刻 ， 但 是 这 个 性 能 结果 不 是 平日 得 来 的 。 我 们 做 的 是 性 能 工程 中 的 一 个 经 典 取舍 : 用 内 存 的 增加 换取 了 性 能 
的 提高 。 举 个 例子 ， 如 果 过 滤器 使 用 的 是 一 个 1280x 1024 的 图 像 ， 所 需 内 存量 将 增加 5MB。 对 于 非常 大 的 图 像 ， 缓 存 该 数据 可 
能 是 不 实际 的 。 但 是 ， 对 于 大 小 合理 的 图 像 ， 相 较 于 过 滤器 两 倍 多 速度 的 提高 ，5MB 内 存 使 用 量 的 增加 似乎 是 个 不 错 的 牺牲 。 


10.12 ”验证 正确 性 


我 们 已 经 用 一 个 优化 明显 降低 了 过 滤器 的 运行 时 间 ， 现 在 重要 的 是 验证 过 滤器 优化 后 和 优化 前 产生 的 图 像 输出 是 相同 的 。 加 
载 了 原来 的 参考 图 像 后 ， 将 它 与 新 生成 的 图 像 比 较 ， 这 里 使 用 了 GIMP 来 获取 两 个 图 像 之 间 的 差异 。 如 果 参 考 图 像 和 优化 后 图 像 
是 相同 的 ， 那 么 所 有 的 像素 都 应 该 为 零 (黑色 ) 。 但 是 ， 郑 寞 图 像 并 非 是 完全 黑色 的 。 从 视觉 上 看 ， 它 像 是 黑色 的 ， 可 仔细 检查 
后 〈 使 用 GIMP 颜 色 选 择 器 ) 发 现 有 些 像素 是 非 零 的 。 这 束 意 味 着 参考 图 像 与 优化 后 图 像 仔 在 舌 异 。 


通常 这 会 引起 和 天 注 ， 因 为 这 可 能 表明 该 优化 改变 了 过 滤器 的 行为 。 但 是 ,仔细 检查 过 滤器 源 代码 后 显示 ， 有 几 个 地 方 的 随机 
噪声 在 过 滤器 运行 前 融 使 得 图 像 产生 了 轻微 抖动 。 过 滤器 的 任意 两 次 运行 都 会 有 所 不 同 ， 因 此 ， 很 可 能 不 应 为 此 责备 优化 。 由 于 
两 个 图 像 乙 间 的 差异 在 视 区 上 如 此 微小 ， 因 此 我 们 可 以 假设 优化 没有 引入 任何 问题 。 


10.13 “后续 步 又 


我 们 超额 完成 了 lic 过 滤器 性 能 增加 10% 的 目标 ， 因 此 就 这 点 来 说 ， 我 们 已 经 完成 了 优化 过 程 。 但 是 ， 如 果 想 要 继续 优化 性 
能 ， 融 必须 对 使 用 新 优化 的 过 滤器 进行 重新 分 析 。 每 一 个 性 能 优化 应 用 后 ， 重 新 分 析 应 用 程序 ， 不 依赖 于 之 前 的 分 析 对 应 用 程序 
的 继续 优化 来 说 是 非常 重要 的 。 每 次 优化 后 ， 应 用 程序 的 运行 时 行为 可 能 友 生 显 闭 变化 。 如 果 不 在 每 次 优化 后 进行 分 析 ， 你 束 有 
可 能 承担 继续 追逐 已 不 存在 的 性 能 问题 的 风险 。 


10.14 ”本 童 小 结 


本 章 中 ， 我 们 确定 了 为 什么 一 个 应 用 程序 (GIMP 过 滤器 lic) 是 受 CPU 限 制 的 。 我 们 计算 出 了 该 应 用 程序 的 基准 运行 时 间 ， 
设置 了 一 个 优化 目标 ,保存 了 一 个 参考 图 像 以 验证 我 们 的 优化 没有 改变 应 用 程序 的 行为 。 我 们 使 用 了 Linux CPU 性 能 工具 
(oprofile 和 Itrace) 调查 究竟 为 什么 该 应 用 程序 是 受 CPU 限 制 的 。 然 后 依靠 Web 理 解 了 该 应 用 程序 是 如 何 工作 的 ， 并 了 解 了 对 
其 不 同 的 优化 万 法 。 我 们 尝试 了 几 种 不 同 的 优化 ， 但 是 最 后 还 是 选择 了 经 典 的 性 能 权衡 : 增加 内 存 使 用 量 来 降低 CPU 使 用 量 。 


我 们 达到 了 优化 目标 ， 之 后 还 验证 了 优化 并 未 改变 应 用 程序 的 输出 。 


本 章 侧重 于 优化 单个 应 用 程序 的 运行 时 间 ， 下 一 章 的 性 能 追踪 则 集中 于 减少 与 X Window 人 交互 时 的 延迟 。 降 低 延 迟 可 能 会 非 
单 环 手 ， 因 为 单一 事件 通 单 会 引 友 一 组 非 显著 性 的 其 他 事件 。 最 困难 的 部 分 是 找 出 被 调 用 的 事件 有 哪些 ， 它 们 耗 时 多 长 。 


第 11 章 ”性 能 奶 路 2: 延迟 敏感 的 应 用 程序 (nautilus ) 


本 章 包 含 了 一 个 例子 : 如 何 用 Linux 性 能 工具 在 延迟 敏感 的 应 用 程序 中 寻找 并 修复 性 能 问题 。 


阅读 本 章 后 ， 你 将 能 够 : 


` 在 延 训 敏 感 的 应 用 程序 中 用 lttace 和 optofile 弄 清楚 哪里 产生 了 延迟 。 
对 “热点 ”函数 的 每 个 调用 ， 用 gdb 生 成 栈 跟 踪 。 
* 用 性 能 工具 确定 使 用 了 多 个 不 同 共享 库 的 应 用 程序 是 如 何 消耗 时 间 的 。 


` 以 本 章 为 模板 ， 找 出 延 信 敏 感应 用 程序 中 高 延迟 的 原因 。 


11.1 ” 征 迟 敏感 的 应 用 程序 


本 章 我 们 将 调查 一 个 应 用 程序 ， 该 程序 对 长 延迟 敏感 。 延 迟 可 以 被 认为 是 一 个 应 用 程序 响应 不 同 的 外 部 或 内 部 事件 所 人 花费 的 
时 间 。 上 有 具有 延迟 性 能 问题 的 应 用 程序 一 般 不 是 长 时 间 占 用 CPU， 相 反 ， 它 只 用 少量 的 CPU 时 间 来 响应 不 同 的 事件 。 但 是 ， 这 种 
啊 应 对 特定 事件 来 说 是 不 够 的 。 在 修复 延迟 性 能 问题 时 ， 我 们 需要 降低 对 各 种 时 间 的 啊 应 延迟 ， 并 找 出 是 应 用 程序 的 哪 将 部 分 延 
组 了 咽 应 。 正 如 你 将 看 到 的 ， 与 追 踊 受 CPU 限 制 的 问题 相 比 ， 退 路 延迟 问题 需要 的 策略 略 有 不 同 。 


11.2 确定 问题 


对 前 一 章 的 性 能 问题 ， 我 们 必须 定义 调查 内 容 ， 并 尝试 去 克服 它 。 本 章 中 ， 我 们 把 这 个 过 程 优化 一 下 ， 使 用 GNOME 桌 面 的 
nautilus 文 件 管理 器 打开 一 个 弹出 菜单 。 在 nautilus 文 件 管 理 器 窗口 的 任何 位 置 点 击 右键 即 可 打开 弹出 菜单 。 在 这 种 特定 情况 
下 ,我 们 将 调查 鼠标 右键 点 击 一 个 打开 窗口 的 背景 时 弹出 菜单 显示 的 性 能 ， 而 不 是 女 标 右键 点 击 一 个 特定 文件 或 文件 夹 时 弹出 采 


单 的 显示 性 能 。 


为 什么 要 对 这 进行 优化 ? 即使 打开 一 个 弹出 菜单 的 时 间 比 一 秒 钟 还 要 少 ， 但 它 仍然 慢 到 足以 让 用 户 感觉 到 自己 点 击 鼠 标 右键 
与 菜单 显示 之 间 的 时 间 差 。 这 种 缓慢 的 弹出 市 给 GNOME 用 户 的 印象 是 计算 机 运行 的 速度 慢 。 人 们 注意 到 轻微 的 延迟 ， 它 会 让 与 
nautilus 的 交互 变 得 烦人 ， 或 是 给 人 留 下 果 面 迟缓 的 印象 。 


这 个 特殊 的 性 能 问题 与 前 一 章 中 的 GIMP 问 题 不 同 。 第 一 ， 桌 面 (本 例 中 为 6NOME) 的 核心 组 件 通常 比 一 个 典型 的 桌面 应 
用 程序 更 为 复杂 与 交错。 这 些 组 件 为 了 完成 工作 一 般 要 依赖 于 各 种 各 样 的 子 系统 和 共享 库 。 而 GIMP 是 一 个 相对 独立 的 应 用 程 
序 ， 这 使 得 它 更 容易 分 析 ， 并 在 必要 的 时 候 重 新 编译 。GNOME 棵 面 则 不 同 ， 它 是 由 多 个 不 同 的 交错 组 件 构成 的 。 这 些 组 件 可 能 
需要 多 个 进程 和 共享 库 ， 其 中 每 个 库 都 代表 时 面 执行 不 同 的 任务 。 尤 其 是 nautilus， 它 链接 了 72 个 不 同 的 共享 库 。 妃 蹊 到 底 是 哪 
一 段 代码 消耗 了 时 间 ， 消 耗 了 多 少 ， 为 什么 消耗 ， 可 以 说 是 一 个 艰巨 的 任务 。 


本 草 性 能 调查 与 GIMP 调 查 第 二 个 明显 不 同 的 地 方 是 : 我 们 想 要 减少 的 时 间 是 以 毫秒 计 ， 而 不 是 以 秒 或 分 钟 计 。 当 时 间 小 到 
这 个 程度 ， 殊 很 难 确保 捕获 到 的 性 能 分 析 数 据 确实 丈 是 你 设法 测量 的 事件 结果 ， 而 不 只 是 尝试 停止 和 局 动 分 析 工 具 时 周围 的 噪 
声 。 不 过 ， 这 个 短暂 的 时 间 周 期 还 是 能 在 你 感 兴趣 的 时 间 内 实际 跟踪 应 用 程序 工作 的 方方面面 。 


11.3 ”找到 基线 /设置 目标 


在 前 一 个 性 能 奶 蹊 案例 中 ， 第 一 步 是 确定 问题 的 当前 状态 。 为 了 让 我 们 的 工作 更 容易 一 点 ， 并 且 回 避 一 些 上 一 节 提 到 的 分 析 
问题 ,我们 要 机 点 小 花招 ， 让 弹出 菜单 问题 看 起 来 更 像 之 前 我 们 测量 过 的 长 时 间 运 行 的 CPU 密 集 型 任务 。 单 个 弹出 菜单 显示 的 
时 间 是 毫秒 级 的 ， 这 使 得 用 我 们 的 性 能 工具 很 难 进行 精确 的 测量 。 如 前 所 述 ， 很 难 在 合适 的 时 间 局 动 和 停止 工具 ， 并 确保 我 们 只 
测量 到 了 感 兴趣 的 ( 即 ， 打 开 确 切 菜 单 所 花 的 CPU 时 间 ) 。 我 们 将 在 这 里 玩 点 小 技巧 。 我 们 将 快速 连续 地 打开 菜单 100 次 ， 而 不 


仅仅 只 打开 一 次 。 这 样 ， 菜 单打 开 的 总 时 间 将 会 达到 100 信 。 这 使 得 我 们 能 用 训 析 工具 捕获 菜单 正如 何 执行 的 信息 。 


由 于 右键 点 击 100 次 很 乏味 ， 且 人 类 (除非 非常 训练 有 素 ) 不 可 能 可 靠 地 重复 打开 一 个 弹出 菜单 100 次 ， 所 以 我 们 必须 将 这 
个 过 程 自动 化 。 要 可 靠 地 打开 弹出 菜单 100 次 ， 我 们 依赖 于 xautomation 包 ， 该 包 可 以 
从 http://hoopajoo.net/projects/xautomation.htmlI 获 得 。 它 可 以 模拟 一 个 用 户 ， 向 X 服 务 器 友 送 任意 的 Xx Window 事 件 。 下 
载 xautomation 压 缩 包 ， 解 压 并 编译 后 ， 融 可 以 使 用 它 来 目 动 执行 点 击 鼠 标 右键 。 


与 对 待 GIM P 不 同 ， 我 们 不 能 简单 地 通过 测量 nautilus 使 用 的 CPU 时 间 来 计算 创建 100 个 弹出 菜单 所 需 的 时 间 。 这 主要 是 因 


为 nautilus 不 能 在 菜单 被 打开 前 立即 启动 ， 也 不 能 打开 后 立即 结束 。 我 们 将 使 用 墙 钟 时 间 来 查看 完成 这 个 任务 需要 耗 时 多 久 。 这 
要 求 在 进行 测试 时 ， 系 统 没 有 运行 任何 其 他 的 事情 。 


清单 11.1 给 出 了 xautomation 命 令 的 shell 脚 本 ， 用 于 在 nautilus 文 件 浏览 器 中 打开 100 个 弹出 菜单 。 运 行 测试 时 ， 我 们 必须 
背景 上 。 这 是 


确保 面 对 的 是 nautilus 窗 口 ， 这 样 束 不 会 有 点 击 实际 上 是 打开 了 文件 夹 的 弹出 菜单 ， 而 是 所 有 的 弹出 窗口 都 出 现在 


公 曰 一 


非常 重要 的 ， 因 为 不 同 弹出 菜单 的 代码 路 径 可 能 是 完全 不 同 的 。 


清单 11.1 


#! /bin/bash 
for i in Seq 1 100 ; 


do 
echo $i 
./xte ‘mousemove 100 100' 'mouseclick 3' mouseclick 3 
./xte “mouSemove 200 100 'mouseclick 3' ‘mouseclick 3 
done 
清单 11.1 中 的 命令 把 光标 放置 在 X 屏 幕 的 (100，100) 处 ， 点 击 鼠 标 右键 (按钮 3) 。 这 个 操作 打开 一 个 菜单 。 然 后 它们 下 


次 石 击 鼠标 ， 这 次 是 天 闭 该 菜单 。 之 后 移动 到 X 人 位置 (200，100) ， 重 复 该 过 程 。 
接 下 来 ， 我 们 用 time 碍 看 完成 这 个 100 次 迭代 脚本 化 费 了 多 少时 间 。 这 残 是 我 们 的 基 绪 时 间 。 在 我 们 进行 优化 时 ， 我 们 将 把 
优化 结果 与 这 个 时 间作 比较 看 看 是 否 有 所 改进 。 我 的 笔记 本 为 普通 版 Fedora 2 的 nautilus， 该 条 件 下 的 基准 时 间 为 26.5 秒 。 
最 后 ， 我 们 要 为 优化 选择 一 个 目标 。 实 现 这 个 目的 的 一 个 简单 方法 是 找到 一 个 已 经 具备 快速 弹出 荣 单 的 应 用 程序 ， 碍 看 它 打 
开 100 次 弹出 菜单 消耗 的 时 间 。xterm 是 这 方面 一 个 很 好 的 例子 ， 它 有 非 单 敏捷 的 菜单 。 虽 然 这 些 荣 单 不 像 nautilus 的 一 样 复 
洒 ， 但 是 它们 至 少 应 该 被 看 作 是 菜单 速度 的 上 限 。 
改修 改 一 下 创建 100 个 弹出 亲 时 的 脚本 。 当 xterm 创 建 一 个 弹出 菜 蛙 时 ， 


xterm 的 弹出 菜单 操作 略 有 不 同 ， 因 此 我 们 需要 稍 售 
需要 按 下 左 控制 键 ， 因 此 我 们 必须 对 目 动 化 脚本 进行 轻微 的 改动 。 访 脚本 如 清单 11.2 所 示 。 


清单 11.2 


#! /bin/bash 
for i in Seq 1 100 ; 
do 

echo $1 


‘/xte “keydown Control L' 'mousemove 100 100' 'mouseclick 3' 'mouseclick 3' 


‘/xte ‘keydown Control L' 'mousemove 200 100' 'mouseclick 3' 'mouseclick 3' done 


运行 Xterm 并 对 创建 弹出 菜单 进行 计时 ，xterm 完 成 该 脚本 的 时 间 约 为 9.2 秒 。nautilus 有 相当 大 的 提升 空间 (几乎 为 17 
秒 ) 。 期 望 创建 nautilus 复 杂 弹 出 菜单 的 速度 与 xterm 的 一 样 可 能 是 不 合理 的 ， 因 此 我 们 保守 地 将 目标 设 定 为 10%， 即 3 秒 钟 。 
我 们 希望 能 够 做 得 比 这 更 好 ， 或 者 至 少 弄 清楚 速度 为 什么 不 能 更 快 了 。 


11.4 ”为 性 能 追踪 配置 应 用 程序 


调查 的 下 一 步 是 为 性 能 追踪 设置 应 用 程序 。 对 GIMP 我 们 立即 重 编译 了 应 用 程序 ， 而 对 nautilus 我 们 将 采取 不 同 的 方法 。 由 
于 要 依赖 于 很 多 不 同 的 共享 库 ， 因 此 很 难 指出 究竟 是 哪些 地 方 需要 重 编 译 。 我 们 不 进行 重 编译 ， 取 而 代 之 的 是 下 载 并 安 闪 每 个 应 
用 程序 和 库 的 调试 信息 。 对 Fedora 和 企业 版 Linux，Red Hat 提 供 了 一 组 dubuginfo rpm， 其 中 包含 了 应 用 程序 编译 时 ， 编 译 器 
生成 的 全 部 符号 信息 和 源 人 代码。 每 个 二 进 制 包 或 库 都 有 相应 的 dubuginfo rpm 提 供 其 调试 信息 。 这 使 得 Red Hat 可 以 传输 二 进 
制 文 件 ， 而 不 用 市 上 占用 磁盘 空间 的 调试 信息 。 但 是 ， 它 又 人 允许 开 有 友人 员 或 那些 调查 性 能 问题 的 人 下 载 并 使 用 合适 的 debuginfo 
包 。 在 这 种 情况 下 ，Red Hat 版 本 的 oprofile 也 可 以 识别 debuginfo 包 ， 并 在 分 析 应 用 程序 (如 一 个 nautilus) 和 库 (如 gtk) 时 
获取 符号 。 本 例 中 ， 我 们 将 下 载 gtk、nautilus、glib 和 内 核 的 debuginfo。 如 果 oprofile 发 现 一 个 库 占 用 了 大 量 的 周期 ， 但 又 不 
允许 你 分 析 这 些 库 (oprofile 输 出 “no symbols”) ， 这 就 表示 没有 安装 该 库 的 调试 信息 。 我 们 可 以 下 载 并 安装 适合 该 库 的 
debuginfo 包 ， 之 后 oprofile 将 访问 调试 信息 ， 并 可 以 把 事件 映射 回 原始 函数 和 源 代 码 行 。 


11.5” 安 委 和 配置 性 能 工具 


奶 蹊 的 下 一 步 是 按照 调查 问题 所 需 的 性 能 工具 。 如 同 对 GIM P 性 能 追踪 所 做 的 一 样 ， 我 们 将 安装 oprofile 和 Itrace。 本 例 中 ， 
我 们 还 将 下 载 并 安装 gdb (如 果 它 还 未 安装 ) 。gdb 可 以 让 我 们 观察 运行 中 应 用 程序 的 一 些 动态 方面 。 


11.6 运行 应 用 程序 和 性 能 工具 


下 面 ， 我 们 运行 应 用 程序 ， 并 使 用 性 能 工具 进行 测量 。 由 于 我 们 已 经 假设 多 个 不 同 的 进程 和 库 之 间 的 复杂 交互 可 能 是 问题 产 


我 们 希望 oprofile 只 测量 弹出 菜单 打开 时 友 生 的 事件 ， 所 以 我 们 将 使 用 如 清单 11.3 所 示 的 命令 行 在 脚本 (名 为 script.sh) 开 
台 运 行 的 前 一 刻 立 即 局 动 分 析 ， 在 结束 运行 的 后 一 刻 立 即 停 止 分 析 ， 该 脚本 打开 和 关闭 弹出 菜单 100 次 。 


清单 11.3 


Opcontrol 一 Stafrt ; ./script.sh ; opcontrol -stop 


收集 分 析 信 息 之 后 运行 opreport， 得 到 如 清单 11.4 所 示 的 信息 。 


清单 11.4 


CPU: CPU with timer interrupt, speed 0 MHz (estimated) 
Profiling through timer interrupt 
TIMER :0| 
samples | %| 
3134 27.1460 /usr/lib/libgobject-2.0.s0.0.400.0 
1840 15.9376 /USr/1Lib/1ibglib-2.0.S0.0.400.0 
1303 11.2863 /1ib/tls/libc-2.3.3.s0 


1048 9.0775 /lib/tls/libpthread-0.61.so 

900 7.7956 /usr/lib/,libgtk-x11-2.0.s0.0.400.0 
810 了 7.0160 /usr/X11R6/bin/Xorg 

719 6.2278 /usr/1lLib/1Libgdk-x11-2.0.S0.0.400.0 
334 2.8930 /usr/lib/libpango-1.0.s0.0.399.1 
308 2.6678 /lib/1d-2.3.3.SO 

298 2.5812 /usr/X11R6/1ib/1libX11.s0.6.2 


228 1.9749 /usr/lib/libbonoboui-2.s0.0.0.0 
152 1.3166 /usr/X11R6/1ib/l1ibXft.so0.2.1.2 


正如 你 所 看 到 的 ， 耗 时 分 散在 多 个 不 同 的 库 中 。 可 惜 的 是 ， 并 不 完全 清楚 这 些 调用 是 属于 哪个 应 用 程序 的 。 尤 其 是 ,我 们 不 
知道 哪个 进程 调用 了 libgobject 库 。 竹 运 的 是 ，oprofile 提 供 了 一 种 方法 来 记录 应 用 程序 运行 时 使 用 的 共享 库 尔 数 。 清 单 11.? 显 
示 了 如 何 配置 oprofile 的 样本 采集 来 按 库 分 离 样本 ， 这 融 意 味 看 oprofile 会 把 共享 库 中 采集 的 样本 按照 调用 库 的 程序 来 划分 。 


清单 11.5 


opcontrol -p library; opcontrol ---reset 


(用 清单 11.3 的 命令 行 ) 重新 运行 测试 后 ，opreport 分 离 了 每 个 应 用 程序 的 库 样 本 ， 如 清单 11.6 所 示 。 


清单 11.6 


[root@localhost menu work]# opreport -ff 


CPU: CPU with timer interrupt, speed 0 MHZ (estimated) 
Profiling through timer interrupt 
TIMER:0@| 
samples | S| 
8172 61.1311 /usr/bin/nautilus 
TIMER :0| 
samples | S| 
3005 36.7719 /usr/lib/libgobject-2.0.s0.0.400.0 
1577 19.2976 /usr/1lib/libglib-2.0.s0.0.400.0 
826 10.1077 /lib/tls/libpthread-.0.61.so 
792 9.6916 /lib/tls/iliDbc-.2.3.3.s0 
727 8.8962 /usr/lib/libgtk-x11-.2.0.s0.0.400.0 
391 4.7846 /usr/lib/libgdk-x11-.2.0.s0.0.400.0 
3 
2 


251 .@715 /usr/lib/libpango-.1.0.s0.0.399.1 

209 .5575 /usr/lib/libbonobouli-.2.s0.0.0.0 

140 1.7132 /usr/X11R6/1lib/libX11.s0.6.2 

75 .9178 /usr/X11R6/,1ib/libXft.so0.2.1.2 

54 0.6608 /usr/lib/,libpangoxft-1.08.so0.08.399.1 
23 0.2814 /usr/lib/libnautilus-private.so.2.08.0 


如 果 我 们 更 深入 的 探究 libgobject 和 和 libglib 库 ， 残 能 清楚 地 看 到 哪些 函数 被 调用 了 ， 如 清单 11.7 所 示 。 


清单 11.7 


[root@localhost menu work]# opreport -1f /usr/lib/libgobject- 
2.0.S0.0.400.0 


CPU: CPU with timer interrupt, speed 0 MHz (estimated) 


Profiling through timer interrupt 


是 ， 目 前 


samples SS 
symbol name 
394 11.7753 /usr/l1ib/libgobject- 
g_type_check instance is a 

248 7.4118 /usr/lib/libgobject- 
g_bsearch array lookup fuzzy 

208 6.2164 /usr/lib/libgobject- 
g_signal emit valist 

162 4.8416 /usr/lib/libgobject- 
signal key cmp 

147 4.3933 /usr/l1ib/libgobject- 
signal emit unlocked R 

137 4.0944 /usr/lib/libgobject- 
__i686.get pc thunk.bx 

90 2.6898 /usr/lib/libgobject- 
g_type_value table peek 

85 2.5403 /usr/l1ib/libgobject- 
type_check_ is value type U 


image name 


opreport -1f /usr/lib/libglib-2.0.,so. 


Name 


app 


.400.0 


,400 .0 


.400 .0 


,400 .0 


,400 .0 


.400 .0 


.400 .0 


,400.0 


.400.0 


CPU: CPU with timer interrupt, speed 0 MHz (estimated) 


Profiling through timer interrupt 
samples 持 image name 
Symbol name 

385 18 .0075 
g_hash_ table lookup 
95 4.4434 
g_str_hash 

78 3.6483 
g_data set internal 
78 3.6483 
g_pattern ph_ match 


70 3.2741 
__i686.get pc_thunk.bx 


还 不 清楚 nautilus 文 件 管理 器 中 哪些 函数 进 


调用 这 nautilus 的 其 他 共享 库 调 用 的 。 


/USr/lLib/1Libglib-2.0， 


/usr/lLib/1ibglib-2.0， 


/usr/lib/1libglib-.2.0., 


/usr/l1ib/libglib-2.0. 


/usr/l1ib/libglib-:2.0. 


app name 


So0.0.400.0 /usSr/bin/nautilus- 


Ss0.0.400.0 /usSr/bin/nautilus.- 


so.0.400.0 /usr/bin/nautilus- 


so0.0.400.0 /usSr/bin/nautilus.- 


Ss0.0.400.0 /usr/bin/nautilus.- 


数 。 我 们 主要 关注 的 是 nautilus 调 用 了 哪些 函数 ， 而 不 是 精确 的 计时 信息 ， 它 只 有 在 打开 弹出 菜单 一 


的 。 因 为 ltrace 会 捕捉 单 次 运行 的 每 一 个 共享 库 调 用 ， 所 以 ， 如 果 我 们 创建 100 个 弹出 菜单 ， 


7 
/人 。 


|trace 就 会 


/usr/bin/nautilus.-. 


/usr/bin/nautilus.- 


/usr/bin/nautiluys.- 


/usr/bin/nautilus.- 


/usr/bin/nautilus.- 


/usr/bin/nautilus- 


/usr/bin/nautilus- 


/usr/bin/nautilus- 


从 oprofile 的 输出 可 以 看 出 nautilus 在 libgobject 库 上 花费 了 相当 多 的 时 间 ， 尤 其 是 g type check instance is a 函数 。 但 
行 了 这 些 调用 。 实 际 上 ， 这 些 国 数 可 能 不 是 直接 由 nautilus 调 用 的 ， 而 是 由 


接 下 来 我 们 使 用 共享 库 奶 踩 器 |trace 关 试 找 出 哪些 库 调 用 开销 最 大 ， 以 及 最 终 是 谁 调 用 了 g type_check _instance is _a 国 


欠 而 非 100 次 时 才 是 重要 
显示 相同 的 分 析 信 息 100 


捕捉 共享 库 使 用 情况 信息 的 过 程 类 似 于 我 们 在 GIMP 中 做 的 。 我 们 首先 正常 启动 nautilus。 之 后 ， 在 打开 一 个 弹出 菜单 之 
前， 使 用 如 下 |trace 命 令 附 加 到 nautilus 进 程 : 


ltrace -C -p <pid of nautilus>., 


在 nautilus 育 景 上 点 击 右 键 ， 打 开 菜 单 ， 接 着 立即 用 组 合 键 <Ctrl-C> 中 止 |trace 进 程 。 跟 路 弹出 菜单 后 ， 我 们 得 到 如 浓 单 
11.8 所 示 的 汇总 表 。 


清单 11.8 


[ezolt@localhost menu work]$ ltrace -C -p 2196 


% time seconds usecs/call calls function 
32.75 0.109360 109360 1 bonobo window add popup 
25.88 0.086414 257 335 g_cclosure marshal VOID VOID 
14.98 0.050011 145 344 g_cclosure marshal VOID OBJECT 
8.85 0.029546 29546 1 eel pop_up_context menu 
5.25 0.017540 604 29 gtk widget destroy 
Saas 0.017427 1340 13 g_cclosure marshal VOID POINTER 
2.96 0.009888 41 241 g free 
0.93 0.003101 3101 1 gtk widget get ancestor 
0.45 0.001500 1500 1 gtk widget Show 
0.45 0.001487 495 3 nautilus icon container get type 
0.43 0.001440 41 35 g_type_check_instance cast 
0.38 0.001263 1263 1 nautilus file list free 
0.34 0.001120 1120 1 gtk widget get screen 
0.29 0.000978 46 21 gdk_x11_get_xatom by_name 
0.25 0.000845 42 20 g_object unref 
0.11 0.000358 89 4 g_type check class cast 
0.09 0.000299 42 7 g_type_check_instance is a 
0.09 0.000285 40 7 g_cclosure marshal VOID _ENUM 
0.06 0.000187 37 5 strcmp 
0.04 0.000126 126 1 g_cclosure marshal _ VOID STRING 
0.03 0.000093 93 1 gtk menu get type 
0.03 0.000087 43 2 bonobo _ window get type 
0.02 0.000082 82 1 nautilus icon container get _ Selection 
0.02 0.000082 41 2 gtk_blin get type 
0.02 0.000081 40 2 gtk widget get type 
0.02 0.000080 80 1 gtk menuyu set screen 
0.02 0.000072 72 1 g_signal connect _ object 
0.02 0.000071 71 1 nautilus file set boolean metadata 
0.01 0.000041 41 1 nautilus file list ref 
0.01 0.000040 40 1 eel g list exactly one item 
0.01 0.000038 38 1 nautilus icon container set keep aligned 
100.00 0.333942 1085 total 


在 这 个 表 中 ， 我 们 可 以 看 到 一 些 有 趣 的 地 方 。|trace 在 顶部 显示 了 一 个 与 oprofile 完 全 不 同 的 函数 。 这 主要 是 因为 oprofile 和 
trace 测 量 的 内 容 略 有 不 同 。oprofile 显 示 的 是 实际 函数 耗费 的 时 间 ， 但 不 包括 子 国 数 。|trace 则 仪 显示 外 部 库 调 用 完成 耗费 的 时 
间 。 如 果 库 函数 反 过 来 还 要 调用 其 他 函数 ， 那 么 ltrace 不 会 记录 每 一 个 的 时 间 。 事 实 上 ， 目 前 它 甚 至 都 不 会 检测 或 显示 发 生 的 这 
些 其 他 库 调 用 。 


在 这 种 特定 情况 下 ，oprofile 所 说 的 libgobject 的 最 热 函 数 ( 即 g type_check_ instance is a) 几乎 根本 不 会 出 现在 ltrace 分 


析 信息 中 。 即 使 这 个 函数 是 共享 库 的 一 部 分 ， 对 它 的 调用 也 没有 显示 在 ltrace 的 输出 中 。ltrace 不 能 显示 跨 库 调用 ， 也 不 能 显示 
库 内 调用 。|trace 只 能 跟踪 外 部 库 调用 或 者 一 个 共享 库 内 的 应 用 程序 调用 。 当 一 个 库 调 用 一 个 内 部 阔 数 时 ，|trace 不 能 跟踪 此 调 
用 。 在 这 种 情况 下 ， 所 有 前 缀 为 g_ 的 函数 实际 上 都 是 libgobject 库 的 一 部 分 。 它 们 其 中 的 任何 一 个 调用 

g type check instance is a，ltrace 都 无 法 检测 到 。 


ltrace 提 供 的 最 重要 的 信息 是 我 们 的 应 用 程序 调用 的 几 个 库 ， 我 们 将 对 它们 进行 调查 。 我 们 可 以 弄 清 楚 库 是 在 哪里 被 调用 
的 ， 以 及 为 什么 这 个 库 调 用 消耗 了 所 有 的 时 间 。 


11.7 ”编译 和 检查 源 代 码 


现在 ， 我 们 有 了 天 于 占用 全 部 时 间 的 应 用 程序 调用 的 一 些 信 息 ， 我 们 将 下 载 源 代码 并 对 其 编译 。 到 目前 为 止 ， 我 们 所 有 的 分 
析 都 可 以 通过 使 用 Red Hat 提 供 的 二 进 制 包 进 行 。 但 是 ， 现 在 我 们 需要 深入 源 代码 ， 检 查 热 点 国 数 裤 调用 的 原因 ， 找 出 原因 后 ， 
修改 源 代 码 来 缓解 性 能 问题 。 如 同 对 CIMP 所 做 的 ， 重 编译 时 ， 在 调用 配置 脚本 之 前 ， 我 们 设置 CFLAG% 为 -g 以 生成 调试 符号 。 


本 例 中 ， 我 们 为 nautilus 下 载 并 安装 Red Hat 的 源 rpm， 它 把 nautilus 源 代码 放 在 /usr/src/redhat/SOURCES 中 。 通 过 使 用 
Red Hat 的 源 代码 包 ， 我 们 有 了 Red Hat 在 包 内 用 于 创建 二 进 制 文件 的 准确 源 代码 和 补丁 。 重 要 的 是 研究 用 于 创建 我 们 一 直 调 查 
的 二 进 制 文件 的 源 代码 ， 因 为 不 同 的 版 本 融 可 能 有 不 同 的 性 能 特点 。 提 取 源 代码 后 ， 我 们 融 可 以 开始 找 出 
bonobo_window_add_popup 是 在 哪里 调用 的 。 可 以 用 清单 11.9 中 的 命令 搜索 nautilus 目 录 下 的 所 有 源 文件 。 


清单 11.9 
[nautilus ]$ find -type f | xargs grep bonobo window add popup 


./src/file-manager/fm-directory-view.c: bonobo window add popup' 
(get bonobo window (view), menyu, popup path ) ; 


幸运 的 是 ， 看 上 去 bonobo window add popup 似 乎 只 被 一 个 函数 create popup_menu 调 用 ， 如 清单 11.10 所 示 。 


清单 11.10 


static GtkMenu *create popup menuyu (FMDirectoryView *view,. 


const char *popup_path ) 
GtkMenu *menu ; 


menu = GTK_MENU (gtk_menu_new ()) 
gtk_menu set Screen (menu，gtk widget get Screen (GTK_WIDGET (view)))}; 


gtk widget show (GTK WIDGET (menu) ) ; 
bonobo window add popup (get bonobo window (view), menyu, popup_path); 


g signal connect object (menu, "hide", 
G CALLBACK (popup menu hidden), 
G OBJECT (view), 
G CONNECT SWAPPED); 


return menu; 


反 过 来 ， 该 国 数 被 其 他 两 个 国 数 调 用 ，fm directory view pop up background context menu 和 
fm_directory view_pop_up_selection_context_ menu。 在 这 两 个 国 数 上 都 添加 printf， 我 们 融 可 以 确定 当 右 键 点 击 窗口 时 调用 
的 是 哪 一 个 了 。 之 后 对 nautilus 进 行 重 编译 ， 并 运行 它 ， 在 窗口 背景 上 点 击 右键 。nautilus 输 出 
fm _directory view_pop_up_background _ context menu， 由 此 我 们 知道 在 窗口 背景 上 打开 弹出 菜单 时 调用 的 就 是 这 个 函数 。 
该 国 数 的 源 代 码 如 清单 11.11 所 示 。 


清单 11.11 


void fm directory view pop_Up_background_context_menu (FMDirectoryView 
*yiew, GdkEventButton *event) 


{ 
g_assert (FM IS DIRECTORY VIEW (view)); 


/* Make the context menu items not flash as they 
* Update to proper disabled, 

* etc. states by forcing menus to update now. 

区 
update menus if pending (view); 
eel pop up context menu 
(create popup menu (view, FM _ DIRECTORY VIEW POPUP_PATH_ BACKGROUND), 

EEL DEFAULT POPUP MENU DISPLACEMENT, 
EEL DEFAULT POPUP MENU DISPLACEMENT, event),; 


现在 我 们 已 经 准确 缩小 了 弹出 菜单 创建 与 显示 的 沁 围 ， 我 们 束 可 以 开始 弄 清 楚 究 竟 是 哪些 部 分 消耗 了 这 些 时 | 间 ， 又 是 哪些 部 
分 最 终 调用 了 g type check instance is a 国 数 ， 即 oprofile 所 说 的 热点 国 数 。 


11.8 使 用 gdb 生 成 调用 跟踪 


侈 索 应 用 程序 调用 了 哪些 函数 的 两 种 不 同 的 工具 提供 给 我 们 哪个 函数 是 热点 函数 的 信息 也 是 不 一 样 的 。 我 们 推测 ltrace 报 告 
的 高 级 函数 调用 了 oprofile 报 告 的 低级 函数 。 要 是 有 性 能 工具 能 告诉 我 们 到 底 是 哪些 函数 调用 了 g_type_check_instance is_ a 以 
验证 这 个 理论 就 好 了 ，。 


虽然 没有 Linux 性 能 工具 向 我 们 显示 究竟 是 哪些 函数 调用 了 某 个 特定 函数 ， 但 gprof 应 该 能 显示 这 个 回调 信息 ， 不 过 这 需要 
用 -pg 选项 重新 编译 应 用 程序 及 其 依赖 的 所 有 库 。 对 nautilus 而 言 ， 它 依赖 于 72 个 共享 库 ， 这 让 任务 变 得 无 比 艰巨 ， 因 此 ， 我 们 
必须 寻找 其 他 的 解决 方法 。 较 新 版 本 的 oprofile 也 可 以 提供 这 类 信息 ， 但 是 由 于 oprofile 只 进行 定期 采样 ， 所 以 它 还 是 不 能 解释 
对 任意 给 定 函数 的 每 一 次 调用 。 


笠 运 的 是 ， 我 们 可 以 创造 性 地 利用 gdb 来 提取 信息 。 用 gdb 来 跟 蹊 应 用 程序 会 极 大 地 降低 运行 速度 ， 不 过 ， 我 们 并 不 真正 在 
意 跟 蹊 是 否 需 要 很 长 的 时 间 。 我 们 感 兴 趣 的 是 友 现 一 个 特定 函数 秘 调 用 的 次 数 而 不 是 它 被 调用 的 时 长 ， 因 此 ， 运 行 需要 很 长 的 时 
间 也 是 可 以 接受 的 。 幸 好 弹出 菜单 的 创建 是 毫秒 级 的 ， 即 便 使 用 gdb 使 其 速度 慢 了 1000 倍 ， 提 取 全 部 跟 踊 信 息 也 仍然 只 需要 15 
分 钟 。 信 息 的 价值 远 远 超过 了 我 们 等 待 检索 的 价值 。 


尤其 是 要 找 出 是 哪些 函数 调用 了 g_type_check_instance_is_ a 时 ,我 们 需要 用 到 gdb 几 个 不 同 的 功能 。 首 先 ， 要 使 用 gdb 设 
置 断 点 的 功能 。 然 后 ， 要 用 到 gdb 在 该 断 点 上 用 bt 生成 回溯 的 功能 。 要 和 弄 清楚 哪些 函数 调用 了 g_type_check_instance is a, 我 
们 确实 需要 这 两 个 功能 ， 不 过 手工 记录 信息 并 继续 是 单调 乏味 的 。 我 们 要 在 立 数 的 每 次 gdb 中 断 之 后 键入 bt; cont。 


要 解决 这 个 问题 可 以 使 用 gdb 的 另 一 个 功能 。 在 遇 到 一 个 断 点 时 ，gdb 可 以 执行 一 组 给 定 的 命令 。 通 过 使 用 command 命 
令 ， 我 们 可 以 告诉 gdb， 每 次 在 为 数 中 遇 到 断 点 时 ， 它 都 要 执行 bt; cont。 现 在 ， 回 漳 上 自动 显示 ， 且 应 用 程序 每 次 遇 到 
g type check instance is a 时 都 会 继续 运行 。 


当 实 际 运 行 跟 踊 时 需要 进行 分 离 。 我 们 可 以 只 在 nautilus 开 始 执行 时 在 g_type_check_instance is a 中 设置 断 点 ， 当 其 被 其 
他 遂 数 调用 时 ，gbd 束 会 显示 跟踪 信息 。 由 于 我 们 只 关注 创建 弹出 菜单 时 被 调用 的 那些 消 数 ,我们 想 要 将 跟 路 只 限制 在 弹出 菜单 
馈 创 建 的 时 候 。 要 做 到 这 一 点 ， 需 在 fm_directory_view_pop_up_background_context_menu 销 数 的 开始 和 结束 的 地 万 设置 另 
一 个 断 点 。 当 到 达 第 一 个 断 点 上 时， 我 们 打开 g type_check instance is a 中 的 回 湖 。 当 到 达 第 二 个 断 点 时 ， 退 出 调试 器 。 这 就 把 
生成 的 回溯 信息 限制 在 了 创建 弹出 菜单 的 时 候 。 最 后 ， 我 们 希望 能 够 保存 这 些 回 洲 信 息 以 便 后 期 处 理 。 我 们 可 以 使 用 gdb 将 其 输 
出 记录 到 文件 的 功能 ， 为 后 续 保存 信息 。 为 了 提取 这 些 信息 而 传递 给 gdb 的 命令 如 清单 11.12 所 示 。 


清单 11.12 


# Prevent gdb from Stopping after a Screenful of output 
set height 0 

# Turn on output logging to a file (default: gdb.txt) 
set logging on 

# Turn off output to the screen 

set logging redirect on 

# Stop When a popup menu is about to be created 

break fm-directory-view.c:5730 

# Start the application 

run 

# When we've stopped at the preceding breakpoint, setup 
# the breakpoint in g type check_ instance is a 

break g type check instance is a 

# When we reach the breakpoint, print a backtrace and exit 
command 

bt 

cont 

end 

# break after the popup was created and exit gdb 

break fm-directory-view.c:5769 

command 

quit 

end 

# continue running 


cont 


运行 这 些 gdb 命 令 ， 打 开 弹 出 菜单 ，gdb 运 行 几 分 钟 后 ,创建 了 一 个 33MB 的 文件 ， 包 含 了 调用 
g_type_check_instance _is_a 的 函数 的 全 部 回溯 信息 。 清 单 11.13 给 出 了 其 中 的 一 个 样本 。 


清单 11.13 


Breakpoint 2, g _ type check instance is a (type instance=0Ox9d2b720 ， 
iface _ type=164410736) at gtype,c:31213121 if (!type _ instance || 
I!type_instance->g class) 


#1 0Oxo8099f09 in fm directory view pop up background context menu 
(view=@x9d2b720, event=0x9ceb628) 


at fm-directory-view.c:5731 


#2 QOx080a2911 in icon_container context click background callback 
(container=0@x80c5a2b, event=0x9ceb628, 


icon view=0x9d2b728) at fm-icon-view.c:2141 


#3 Ox@0da32be in g cclosure marshal VOID POINTER (closure=@x9d37620, 
return value=@x0, Nn param valuyues=2, 


param values=@xfef67320, invocation hint=@xfef67218, 
marshal data=0x0) at gmarshal.c:601 


#4 0Oxood8e160 In g closure invoke (closure=0x9d37620, 
return_value=@x9d2b720, n param values=164804384, 


param values=@x9d2b720, invocation hint=Ox9d2b720) at gclosure.c:437 


#5 QOx@0da2195 in signal emit unlocked R (node=@x9d33140, detail=0@, 
instance=@x9d35138,， emission return=@x®@, 


instance and params=@xfef67320) at gsignal.c:2436 


#6 0Oxoodal157 in 9g signal emit valist (instance=0@x9d35138, signal id=0， 
detail=@, var _ args=0xfef674bp0 "") at gsignal.c:2195 


尽管 这 个 信息 非常 详细 ， 但 它 的 格式 实在 是 不 易于 阅读 。 如 果 每 个 回溯 都 在 单独 一 行 上 ， 且 用 和 贡 头 分 隅 每 个 为 数 融会 好 一 
挟 。 去 控 对 fm _directory_view_pop_up_background _context_menu 调 用 上 面 的 回溯 信息 也 是 很 好 的 ， 因 为 我 们 知道 每 一 个 这 
样 的 调用 都 有 同样 的 回溯 信息 。 利 用 清单 11.14 所 示 的 Python 程序 slice.Py 可 以 做 到 这 一 点 。 该 程序 用 gdb 生 成 的 详细 输出 文 
件 ， 对 每 个 调用 fm_directory view_pop_up_background context menu 的 函数 创建 一 个 格式 良好 的 调用 跟踪 。 


清单 11.14 


#1! /usr /bin/python 
import sys 
import string 
funcs = "" 
stop at = "fm directory view pop up background _context_menu 
for line in sys.stdin: 

parsed = string.split(line) 

if (line[:1] == "#"): 

if (parsed[O] == "#0@"): 
funcs = parsed[1] 


elif (parsed[3] == stop at) : 


print funcs 
funcs = "" 


else: 


funcs parsed[3] + "->" + funcs 


用 清单 11.15 中 的 命令 行 在 这 个 Python 程 序 中 运行 gdb.txt 文 件 ， 会 得 到 一 个 合并 度 更 高 的 输出 ， 清 单 11.16 给 出 了 一 个 例 


子 。 


清单 11.15 


cat gdb.txt | ./slice.py > backtrace.txt 


清单 11.16 


create popup menu->gtk widget show->g object notify:>g type check_ 
instance is a 


create popup_menu->gtk widget show->g object notify->g object ref-.>g 
type_ check instance is a 


create popup_menu->gtk widget show->g object notify->g object 
notify_queue add->g param spec get redirect target->g type check 
instance is a 


create popup_ menu->gtk widget show->g object notify->g object notify 
queue_ add->g param spec get redirect target->g type check instance is a 


create popup_menu->gtk widget show->g object notify->g object unref-.>g_ 
type _ check instance is a 


create popup_menu->gtk widget show->g obiject unref->g type check _ 
instance is a 


由 于 输出 行 很 长 ， 本 书 显示 时 它们 已 经 换行 ， 但 是 在 文本 文件 中 一 个 回溯 一 行 。 每 行 都 用 g_type_check instance is _a 国 数 
结束 。 因 为 一 个 回溯 只 占用 一 行 ， 我 们 就 可 以 用 一 些 常见 的 Linux 工 具 来 抽取 回溯 信息 ， 比 如 wc， 该 工具 可 以 用 于 计算 特定 文件 
的 行 数 。 


首先 ， 我 们 看 看 有 和 多少 对 g type _check instance is _a 国 数 的 调用 。 该 值 与 回溯 的 数量 相同 ， 因 此 也 与 backtrace.txt 文 件 的 
行 数 相同 。 清 单 11.17 显 示 了 被 精简 回溯 文件 调用 的 wc 命 令 。 第 一 个 数字 表示 的 是 文件 的 行 数 。 


清单 11.17 


[ezolt@localhost menu work]$ wc backtrace .txt 
6848 6848 3605551 backtrace .txt 


可 以 看 到 ， 只 是 创建 弹出 菜单 ， 函 数 就 被 调用 了 6848 次 。 接 下 来 看 看 这 些 函 数 调用 中 有 多 少 是 代表 
bonobo window add popup 友 起 的 ， 碍 看 清单 11.18。 


清单 11.18 


[ezolt@localhost menu work]$ grep bonobo window add popup backtrace .txt | wc 


6670 6670 3558590 


bonobo window add popup 负 责 了 6670 次 热点 国 数 的 调用 。 碍 看 backtrace.txt 文 件 友 现 ， 其 中 的 一 些 是 直接 调用 ， 而 
大 多 数 则 来 自 于 它 调用 的 其 他 函数 。 从 这 点 来 看 ， 好 像 bonobo window add popup 确 实 应 为 大 部 分 消耗 掉 的 CPU 时 间 负 责 。 
不 过 ， 我 们 还 是 要 对 这 种 情况 进行 确认 。 


11.9 ”找到 时 间 差 异 


现在 我 们 已 经 缩小 到 了 是 由 哪些 轴 数 创建 了 荣 单 ， 我 们 想 要 弄 清楚 哪些 部 分 占用 了 所 有 的 时 间 ， 哪 些 部 分 相对 是 轻 量 级 的 。 
有 一 个 很 好 的 万 法 能 做 到 这 一 点 ， 并 且 不 需要 使 用 任何 性 能 工具 ， 即 只 需 禁 用 代码 段 ， 查 看 它 是 如 何 改变 性 能 的 。 尽 管 这 会 导致 
nautilus 功 能 失常 ， 但 它 至 少 能 表明 哪些 消 数 占用 了 所 有 的 时 间 。 


首先 我 们 要 从 获取 基线 开始 ， 因 为 与 Red Hat 提 供 的 相 比 ， 正 在 测试 的 二 进 制 文件 已 经 用 不 同 的 标志 编译 过 了 。 和 之 前 一 样 
对 脚本 计时 。 此 时 ， 在 我 们 自己 编译 的 版 本 中 ， 运 行 100 次 欠 代 人 花费 了 30.5 秒 。 接 着 ， 我 们 注释 挥 eel pop_ up_context_ menu 
调用 。 这 会 告诉 我 们 nautilus 伦 了 多 少时 间 来 检测 鼠标 点 击 并 决定 应 创建 一 个 右键 菜单 。 即 使 完全 优化 掉 这 些 函 数 中 的 所 有 命 
令 ， 也 无 法 运行 地 更 快 。 这 种 情况 下 ， 运 行 全 部 100 次 迭代 耗 时 7.6 秒 。 接 下 来 ， 我 们 注释 掉 bonobo window add popup， 看 
看 调用 |trace 所 说 的 占用 最 多 时 间 的 函数 实际 上 消耗 了 多 少时 间 。 如 果 注 释 挨 bonobo_ window add popup， 完 成 100 次 和 迭 代 
耗 时 21.9 秒 。 这 就 是 说 ， 如 果 我 们 优化 掉 bonobo window add popup， 总 的 运行 时 间 可 以 减少 大 约 8 秒 ， 性 能 提升 了 几乎 
25%。 


11.10 “县 试 一 种 可 能 的 解决 方案 


所 以 ， 如 我 们 所 见 的 一 样 ，bonobo_window_add_popup 是 开销 很 大 的 销 数 ， 但 又 是 每 次 想 要 创建 弹出 菜单 时 必须 调用 的 
肖 数 。 如 果 用 同样 的 参数 重复 调用 该 函数 ， 说 不 定 可 以 缓存 其 从 初始 调用 返回 的 值 ， 并 且 在 之 后 的 每 一 次 调用 时 都 使 用 该 值 ， 以 
代 蔡 对 该 昂贵 函数 的 重复 调用 。 清 单 11.19 显 示 了 一 个 重 写 尔 数 的 例子 ， 来 完成 这 个 功能 。 


清单 11.19 


void 


fm_directory_view pop_up_background context menu (FMDirectoryView *view, 


GdkEventButton *event ) 
1/* Primitive Cache */ 
static FMDirectoryView *old view = NULL; 
static GtkMenu *old menyu = NULL.,; 


g_assert (FM_IS DIRECTOAY VIEW (view)); 


Wake the context menu items not flash as they Update to proper disabled, 


* etc. states by forcing menus to update now. 


*!] 
if ({old view != view) || view->details->menu states untrustworthy) 
{ 
update menus if pending {view); 
old View = view; 
old menu = create popup_menu{(view, FM DIRECTORY VIEW POPUP PATH BACKGROUND); 
lj 


eel_pop_uUp_context_menu (old menu, 
EEL DEFAULT POPUP MENU DISPLACEMENT, 
EEL _ DEFAULT POPUP MENU DISPLACEMENT, 


event); 


本 例 中 ， 我 们 记 住 了 上 一 次 生成 的 菜单 。 如 果 呈 现在 同一 视图 中 ， 且 我 们 认为 该 视图 的 菜 蛙 没有 改变 ， 那 么 只 需要 使 用 与 上 
一 次 相同 的 菜单 ， 而 不 用 创建 新 的 。 这 个 技术 并 不 复杂 ， 如 果 用 户 没 有 在 同一 个 目录 中 重复 打开 弹出 菜单 融会 出 问题 。 举 个 例 
子 ， 假 如 用 户 在 目录 1 中 打开 了 一 个 弹出 菜单 ， 然 后 又 在 目录 2 中 打开 一 个 ， 之 后 又 在 目录 1 里 打开 一 个 弹出 菜单 ， 那 么 nautilus 
还 是 会 创建 一 个 新 菜单 。 可 以 建立 一 个 简单 的 缓存 ， 在 菜单 被 创建 时 保存 它们 。 打 开 菜 单 时 ， 首 先 检查 这 些 视图 是 否 已 经 有 在 绥 
存 中 的 菜单 。 如 果 是 ， 束 显示 被 缓存 的 菜单 ， 否 则 将 创建 新 菜单 。 这 个 缓存 对 一 些 特殊 的 目录 非常 有 用 ， 如 提 面 、 计 算 机 或 主 目 
录 ， 在 这 些 目录 中 用 户 很 可 能 多 次 打开 弹出 菜单 。 应 用 上 述 解决 方案 后 ， 对 100 次 迭 代 计 时 ， 其 所 用 时 间 减 少 到 24.0 秒 。 性 能 提 
升 约 20%， 接 近 于 不 创建 任何 菜单 时 可 以 获得 的 理论 改进 值 (21.9 秒 ) 。 在 不 同 目录 中 创建 弹出 菜单 与 预期 一 致 。 这 个 补丁 似乎 
没有 任何 破坏 性 。 

但 是 要 注意 ， 现 在 这 只 是 一 个 测试 解决 方案 。 它 需要 被 提交 给 nautilus 开 友人 员 ， 以 确认 该 方案 没有 破坏 任何 功能 ， 且 适合 
添加 。 不 过 在 整个 退 踩 的 过 程 中 ， 我 们 已 经 确定 了 哪些 六 数 慢 ， 跟 踪 了 它们 在 哪里 被 调用 ， 创 造 了 一 个 可 能 的 解决 万 和 案 ， 它 在 客 
观 上 改进 了 性 能 。 请 注意 ， 改 进 是 客观 的 ， 这 一 点 很 重要 。 也 融 是 训 ， 我 们 有 确 首 的 数据 证 明 新 方法 更 快 ， 而 不 是 简单 的 主观 印 
象 〈 只 是 况 感觉 更 迅捷 了 ) 。 大 多 数 开 有 友人 员 都 想 要 这 样 的 性 能 bug 报 告 。 


11.11 本 草 小 结 


本 章 我 们 确定 了 为 什么 应 用 程序 的 特定 部 分 会 有 高 延迟 (nautilus 中 的 弹出 菜单 ) 。 我 们 弄 清 楚 了 怎样 将 弹出 菜单 的 创建 进 
行 目 动 化 (xautomation) ， 以 及 怎样 扩展 nautilus 在 创建 弹出 菜 持 时 花费 的 时 间 〈100 次 欠 代 ) 。 我 们 用 oprofile 来 了 解 


nautilus 在 哪些 冰 数 上 消耗 了 全 部 时 间 ， 然 后 用 ltrace 和 gdb 确 定 哪些 共享 库 调 用 应 该 对 所 有 的 调用 负责 。 人 在 明确 了 哪些 库 调 用 
具有 高 成 本 后 ， 我 们 试图 减少 或 限制 它们 被 调用 的 次 数 。 针 对 这 种 情况 ， 当 一 个 新 菜单 被 创建 时 ， 我 们 保存 一 个 指针 指向 它 ,， 之 
后 使 用 束 可 以 避免 不 必要 的 重新 分 配 。 我 们 创建 了 一 个 建议 补丁 ， 然 后 在 其 上 运行 性 能 测试 看 看 是 人 否 可 以 提升 性 能 。 性 能 提 蜗 
了 ， 并 且 功 能 看 上 去 没有 受到 影响 。 下 一 步 束 是 把 这 个 补丁 提交 给 nautilus 开 友人 员 讨 论 。 本 章 侧重 于 优化 单个 应 用 程序 的 延 
迟 ， 下 一 草 给 出 的 性 能 追 趴 则 集中 于 解决 系统 级 的 性 能 问题 。 这 种 类 型 的 追 叶 党 党 涉及 对 系统 多 个 不 同方 面 的 调查 ， 包 括 硬件 
(磁盘 、 网 络 和 内 存 ) 与 软件 (应 用 程序 、 共 享 库 和 Linux 内 核 ) 。 


第 12 章 ”性 能 追踪 3: 系统 级 迟缓 (prelink) 


本 章 包含 的 例子 说 明了 如 何 用 Linux 性 能 工具 寻找 并 修复 影响 整个 系统 而 不 是 某 个 应 用 程序 的 性 能 问题 。 
阅读 本 章 后 ， 你 将 能 够 : 

追踪 是 哪 一 个 进程 导致 了 系统 速度 的 降低 。 

"用 strace 调 查 一 个 不 受 CPU 限 制 的 进程 的 性 能 表现 。 

* 用 sttrace 调 查 一 个 应 用 程序 是 如 何 与 Linux 内 核 进行 交 互 的 。 


“ 提交 描述 性 能 问题 的 bug 报 告 ， 以 便 创作 者 或 维护 者 有 足够 的 信息 修改 该 问题 。 


12.1， 调 但 系统 级 迟缓 


本 草 我 们 调查 系统 级 迟缓。 首先 会 友 现 系统 行为 逐 渐变 慢 ， 我 们 将 用 Linux 性 能 工具 找到 确切 的 原因 。 这 种 类 型 的 问题 经 党 
人 一 三 :在 术 木 


发 生 。 作 为 一 个 用 户 或 系统 管理 员 ， 有 了 时 你 可 能 会 注意 到 Linux 机 器 变 得 缓慢， 或 者 需要 很 长 时 间 才 能 完成 任务 。 能 够 弄 清楚 机 
器 变 缓 的 原因 是 很 有 价值 的 。 


12.2 ”确定 问题 


和 前 面 一 样 ， 第 一 个 步骤 是 准确 找 出 我 们 要 调查 的 问题 。 本 例 中 ， 在 使 用 Fedora Core 2 桌面 系统 的 条 件 下， 我 们 将 调查 友 
生 的 周期 性 迟 组 问题。 通常 情况 下 ， 泉 面 系统 性 能 民 好 ， 但 侦 尔 磁盘 会 开始 不 停 地 读 盘 ， 其 结果 束 是 菜单 和 应 用 程序 打开 的 时 间 
非常 长 。 过 一 会 儿 ， 磁盘 研磨 消退 ， 而 虽 面 系统 行为 又 恢复 正常 。 本 章 我 们 将 弄 清楚 究竟 是 什么 导 人 至 了 这 个 问题 ， 以 及 其 友 生 的 


这 个 问题 的 类 型 与 前 两 章 的 问题 都 不 一 样 ， 因 为 一 开始 我 们 完全 不 知道 系统 的 哪 部 分 引发 了 问题 。 而 在 调查 GIMP 和 
nautilus 的 性 能 时 ， 我 们 是 知道 应 由 哪个 应 用 程序 对 问题 负责 的 。 在 这 种 情况 下 ， 我 们 只 有 一 个 表现 不 佳 的 系统 ， 理 论 上 来 说 


性 能 问题 可 能 存在 于 系统 的 任何 部 分 。 这 种 情况 也 是 常见 的 。 当 遇 到 它 时 ， 重 要 的 是 用 性 能 工具 去 实际 人 退路 问题 的 原因 ， 而 不 是 
仅仅 去 猜测 原因 并 尝试 解决 方案 。 


12.3 ”找到 基线 /设置 目标 


还 是 和 前 面 一 样 ， 第 一 步 是 确定 问题 的 当前 状态 。 


不 过 ， 对 本 例 来 说 ， 这 一 点 不 容易 做 到 。 我 们 不 知道 问题 什么 时 候 友 生 或 者 它 会 持续 多 长 时 间 ， 因 此 在 没有 进一步 调查 前 ， 


AN 


我 们 无 法 真正 地 设置 基线 。 至 于 说 到 目标 ， 理 想 状 态 下 ， 我 们 希望 问题 完全 消失 ， 但 是 导致 问题 出 现 的 可 能 是 重要 的 OS 功能 ， 
因此 ， 可 能 无 法 完全 消除 它 。 


站 先 ， 针 对 问题 为 什么 会 出 现 我 们 需要 多 做 一 点 调查 ， 以 便 找到 一 个 合理 的 基线 。 第 一 步 是 在 迟缓 友 生 时 运行 top。 这 会 给 
我 们 提供 一 个 可 能 导致 问题 的 进程 列表 ， 或 者 甚至 也 可 能 直 指 内 核 目 身 。 


在 这 种 情况 下 ， 如 清单 12.1 所 示 ， 运 行 top 并 要 求 它 只 显示 非 空 闪 进程 (top 运行 时 按 <1>) 。 


清单 12.1 


top - 12:03:40 up 12 min, 7 users, load average: 1.35, 0.98, 0.53 

Tasks: 86 total, 2 running, 84 sleeping, @ stopped, 0 zombie 

Cpu(s): 2.3% US， 5.0% sy, 1.7% ni, 0.0% id, 91.0% wa, 0.0% hi, 0.0% si 
Mem: 320468k total, 317024k Used, 3444k free, 24640k buffers 
Swap : 655192k total, Ok used, 655192k free, 183620k cached 


PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 
5458 root 34 19 4920 1944 2828 R 1.7 0.6 0:01.13 prelink 
5389 ezolt 17 0 3088 904 1620 R 0.7 0.3 0:00.70 top 


清单 12.1 中 的 top 输 出 有 几 个 有 意思 的 特性 。 第 一 ， 我 们 注意 到 没有 进程 占用 CPU， 两 个 非 空闲 任务 使 用 的 CPU 时 间 都 不 到 
2%。 第 二 ， 系 统 花费 了 919% 的 时 间 等 待 MO 的 发 生 。 第 三 ， 系 统 没有 使 用 任何 交换 空间 ， 因 此 磨盘 不 是 由 交换 导致 的 。 最 后 ， 有 
一 个 未 知 进程 prelink 在 问题 发 生 时 正在 运行 。 由 于 不 清楚 这 个 prelink 命 令 是 什么 ， 因 此 我 们 先 记 住 应 用 的 名 字 ， 之 后 再 调查 


i 


比 。 


我 们 的 下 一 步 是 运行 vmstat， 看 看 系统 做 了 什么 。 清 单 12.2 给 出 了 vmstat 的 结果 ， 并 确认 了 我 们 在 top 中 看 到 的 。 也 残 是 ， 
大 约 90% 的 系统 时 间 用 于 等 竺 MO。 访 清单 还 告诉 我 们 磁盘 子 系统 读数 据 的 速度 大 概 是 1000 块 / 秒 。 这 个 磁盘 I/O 量 相当 大 。 


清单 12.2 


[ezolt@localhost ezolt]$ vmstat 1 10 


procs ----------- memory---------- Swap-- ----- io system cpu 

Fr b swpd free buff cache si SO bi bo in cs US Sy id wa 
0 1 0 2464 24568 184992 0 0 689 92 1067 337 5 4 45 46 
0 1 0 2528 24500 185060 0 0 1196 0 1104 1324 6 10 0 84 
0 1 0 3104 24504 184276 @ 0 636 684 1068 967 3 7 0 90 
0 1 0 3160 24432 184348 0 0 1300 0 1096 1575 4 10 0 86 
0 2 0 3488 24336 184444 0 0 1024 0 1095 1498 5 9 0 86 
0 1 0 2620 24372 185188 0 0 980 0 1096 1900 6 12 0 82 
@ 1 0 3704 24216 184304 0 0 1480 0 1120 500 1 7 0 92 
OO 1 0 2296 24256 185564 0 0 1384 684 1240 1349 6 8 0 86 
a 1 0 3320 24208 184572 0 0 288 @ 1211 1206 63 7 0 30 
0 1 0 3576 24148 184632 0 0 1112 0 1153 850 19 7 0 74 


现在 我 们 知道 磁盘 被 频繁 使 有 用， 内核 化 费 了 很 多 时 间 等 竺 WO 和 未 知 应 用 程序 prelink 的 运行 ， 我 们 可 以 开始 弄 清 楚 系 统 究竟 
在 干 嘛 。 


我 们 不 能 确认 prelink 是 导致 问题 的 原因 ， 但 是 我 们 怀疑 它 是 。 明 确 prelink 是 否 引 起 磁盘 I/O 的 最 简单 方法 就 是 “ 杀 
死 ”prelink 进 程 ， 看 看 磁盘 的 使 用 是 不 是 消失 了 。 (这 在 生产 用 计算 机 上 是 不 可 能 的 ， 不 过 我 们 使 用 的 是 个 人 栗 面 系统 ， 所 以 
可 以 快 一 点 儿 ， 不 那么 严格 。) 清单 12.3 显 示 了 vmstat 的 输出 ， 在 其 中 一 半 的 地 方 ， 我 们 终止 了 prelink 进 程 。 如 你 所 
见 ，prelink 被 终止 后 ， 块 读 取 降 为 零 。 


清单 12.3 
proCS ----------- memory---------- ---SWap-- ----- i0---- --SyStem-- ----CPpuU---- 
mr b swpd free buff cache si SO bi bo 1n cs US Sy id wa 
0 1 122208 3420 13368 84508 0 0 1492 332 1258 1661 15 11 0 74 
0 1 122516 3508 13404 85780 0 308 1188 308 1134 1163 5 7 0 88 
0 2 123572 2616 13396 86860 0 1056 1420 1056 1092 911 4 6 0 90 
0 1 126248 3064 13356 86656 0 2676 316 2676 1040 205 1 2 0 97 
0 2 126248 2688 13376 87156 0 0 532 528 1057 708 2 5 0 93 
0 0 126248 3948 13384 87668 0 0 436 4 1043 342 3 3 43 51 
1 0 126248 3980 13384 87668 0 0 0 0 1154 426 3 196 0 
0 0 126248 3980 13384 87668 0 0 0 0 1139 422 2 197 0 
12 0 126248 4020 13384 87668 0 0 0 0 1023 195 9 091 0 


由 于 prelink 看 着 像 是 事由 应 用 程序 ， 现 在 可 以 开始 调查 它 到 底 是 什么 ， 以 及 它 为 什么 运行 。 清 单 12.4 请 求 rpm 告 诉 我 们 哪 
些 文 件 是 prelink 构 成 包 的 组 成 部 分 。 


清单 12.4 


[root@localhost root]# rpm -qlf ‘which prelink 
/etc/cron.daily/prelink 

/etc/prelink.conf 

/etc/rpm/macros.prelink 

/etc/sysconfig/prelink 

/usr/bin/execstack 

/usr/sbin/prelink 

/usr/share/doc/prelink-0.3.2 
/usr/share/doc/prelink-0.3.2/prelink.pdf 
/usr/share/man/man8/execstack.8.9gz 


/usr/share/man/man8/prelink.8.9gz 


首先 ,我们 注意 到 prelink 包 有 一 个 日 党 运行 的 作业 cron。 这 解释 了 为 什么 性 能 问题 的 友 生 是 周期 性 的 。 其 次 ,我 们 注意 到 
prelink 包 含 了 摘 述 其 功能 的 手册 页 和 文档 。 手 册页 将 prelink 摘 述 为 可 以 预 链接 可 执行 文件 与 库 的 应 用 程序 ， 以 此 减少 它们 的 局 
动 时 间 。 (有 所 讽 刺 意 味 的 是 ， 用 于 提高 性 能 的 应 用 程序 正在 拉 低 系统 的 速度 。) prelink 有 两 种 运行 模式 。 第 一 种 模式 使 得 所 
有 指定 的 可 执行 文件 和 库 都 预 链接 ， 即 使 之 前 已 经 完成 预 链接 了 。 (用 --force 或 -f 选 项 指定 ) 。 第 二 种 是 快速 模式 ，prelink 只 
需 查 看 库 与 可 执行 文件 的 mtime 与 ctime， 看 看 从 上 次 预 链接 后 是 人 否 友 生 了 变化 。 (用 --quick 或 -q 选 项 捐 定 。) 通常，prelink 
会 把 已 预 链接 的 可 执行 文件 的 所 有 mtime 和 ctime 写 入 它 上 自己 的 缓存。 然后 在 快速 模式 中 使 用 这 些 信息 ， 以 避免 对 已 经 预 链接 过 
的 可 执行 文件 再 执行 预 链接 。 


检查 prelink 包 中 的 cron 条 目 显 示 ， 默 认 情 况 下 ，Fedora 系 统 同 时 使 用 了 prelink 的 两 种 模式 。 每 隔 14 天 用 完整 模式 调用 
prelink。 而 在 此 期 间 的 每 一 天 ，prelink 运 行 于 快速 模式 。 


对 完整 异 式 和 快速 模式 下 的 prelink 进 行 计 时 可 以 告诉 我 们 最 糟糕 的 情况 有 多 慢 (全 预 链接 ) ， 以 及 使 用 快速 模式 后 性 能 提 
升 了 多 少 。 对 prelink 计 时 要 小 心 ， 因 为 不 同 的 运行 可 能 会 产生 完全 不 同 的 时 间 。 如 果 运 行 的 应 用 程序 使 用 了 大 量 的 磁盘 /O， 残 
必须 让 它 多 运行 几 次 以 便 获 得 对 其 基准 性 能 的 精确 指示 。 磁 盘 密 集 型 应 用 程序 第 一 次 运行 时 ， 许 多 数据 从 它 的 |/O 加 载 到 缓存 。 
程序 第 二 次 运行 时 ， 其 性 能 就 会 好 很 多 ， 因 为 要 使 用 的 数据 已 经 在 缓存 中 了 ， 不 再 需要 从 磁盘 读 取 。 如 果 用 第 一 次 运行 作为 基 
线 ， 你 会 被 误导 ， 以 为 调整 后 性 能 束 提 升 了 ， 但 其 实 提升 的 真正 原因 是 预 热 了 缓存 。 只 有 多 运行 应 用 程序 几 次 ， 你 才 可 以 预 热 好 
缓存 ， 获 得 准确 的 基线 。 清 单 12.5 显 示 了 运行 多 次 后 ， 两 种 模式 下 prelink 的 结果 。 


清单 12.5 


[root@localhost root]# time prelink -f -a 


real 4m24 .494S 
user Om9 .552s 


SYS Om14.322S 
[root@localhost root]# time prelink -q -a 


real 3m18.136s 
user Om3.187s 
SYS 0m3 .6635S 


清单 12.5 中 首先 要 注意 的 事实 是 快速 模式 与 完整 模式 相 比 ， 并 没有 都 快 得 那么 多 。 这 点 值得 怀疑 ， 需 要 更 多 的 调查 。 第 二 所 
事实 强调 了 top 的 报告 。prelink 只 占用 了 一 点 CPU 时 间 ， 其 余 的 全 都 用 来 等 待 磁盘 |/O。 


现在 我 们 必须 选择 一 个 合理 的 目标 。 安 装 在 prelink 包 中 的 PDF 文件 描述 了 预 链接 的 过 程 。 它 也 说 明了 完整 模式 需要 花费 几 
分 钟 ， 而 快速 模式 需要 花费 几 秒 钟 。 作 为 目标 ， 让 我 们 试 着 把 快速 模式 的 时 间 减 少 到 一 分 钟 之 内 。 即 使 我 们 可 以 优化 快速 模式 ,， 
每 阳 14 天 仍然 会 遇 到 明显 的 磨盘 ， 但 是 日 常 运 行 会 有 更 多 的 改善 。 


12.4 ”为 性 能 退路 配置 应 用 程序 


调查 的 下 一 步 是 为 性 能 追 路 配置 应 用 程序 。prelink 是 一 个 小 而 独立 的 应 用 程序 。 事 实 上 ， 它 甚至 不 使 用 任何 共享 库 。 ( 它 
是 静态 链接 的 。) 不 过 比较 好 的 做 法 是 ， 用 全 部 的 符号 对 其 进行 重 编译 ， 这 样 需要 的 时 候 就 可 以 在 调试 器 (gdb) 中 查看 它 。 同 
样 ， 这 个 工具 用 configure 命 令 严 生生 成 文件 。 我 们 必须 下 载 源 代码 到 prelink， 并 用 符号 对 它 重新 编译 。 我 们 可 以 从 Red Hat 再 
次 下 载 prelink 的 源 rpm。 源 代码 被 安装 在 /usr/src/redhat/SOURCES 下 。 一 旦 解压 了 prelink 的 源 代码 后 ， 就 可 以 如 清单 12.6 所 


示 对 其 进行 编译 。 
清单 12.6 


env CFLAGS=-g3 . /configure 
gmake 


prelink 完 成 配置 与 编译 后 ， 残 可 以 利用 我 们 编译 的 二 进 制 文件 来 调查 性 能 问题 。 


12.5 ”安装 和 配置 性 能 工具 


奶 踪 的 下 一 步 是 安 妆 性 能 工具 。 本 例 中 ， 无 论 是 |trace 还 是 oprofile 都 派 不 上 用 场 。oprofile 用 于 齐 析 使 用 了 大 量 CPU 时 间 
的 应 用 程序 ， 而 prelink 人 在 运行 时 只 使 用 了 3% 的 CPU 时 间 ， 所 以 oprofile 对 我 们 没有 帮助 。 而 prelink 二 进 制 文件 是 静态 链接 的 ， 
且 不 使 用 任何 共享 库 ， 所 以 trace 也 帮 不 上 我 们 。 不 过 ， 系 统 调 用 追踪 器 strace 可 能 会 有 帮助 ， 因 此 我 们 需要 安装 它 。 


12.6 运行 应 用 程序 和 性 能 工具 


现在 ， 我 们 终于 可 以 开始 分 析 prelink 在 不 同 模式 下 的 性 能 特征 了 。 正 如 你 刚才 看 到 的 ，prelink 没 有 伦 很 多 时 间 使 用 CPU， 
相反 ， 它 把 所 有 的 时 间 都 化 在 磁盘 VO 上 了 。prelink 必 须 调用 内 核 进行 磁盘 MO， 因 此 我 们 用 性 能 工具 strace 应 该 能 退 踩 它 的 执 
行 。prelink 的 快速 模式 没有 表现 得 比 标准 完整 运行 模式 快 很 多 ， 所 以 我 们 用 strace 比 较 这 两 个 运行 ， 看 看 是 否 有 任何 可 疑 行为 
出 现 。 


首先 ,我们 要 求 strace 追 踪 较 慢 的 完整 运行 prelink。 该 运行 创建 了 初始 缓存 ， 它 将 在 prelink 运 行 于 快速 模式 时 使 用 。 起 
急 ， 我 们 让 strace 显 示 prelink 的 系统 调用 汇总 ， 看 看 其 中 的 每 一 个 要 化 多 长 时 间 完 成 。 实 现 该 操作 的 命令 如 清单 12.7 所 示 。 


清单 12.7 


[root@localhost prelink]# Strace -c -0 af sum /usr/sbin/prelink -af 


/usr/sbin/prelink: /usr/libexec/autopackage/luauyu-downloader.bin: Could 
not parse '/usr/libexec/autopackage/luau-downloader ,bin: error while 
loading shared libraries: libuau.so.2: cannot open shared object file: No 
such file or directory 


/usr/sbin/prelink: /usr/lib/mozilla-1.6/regchrome: Could not parse 
‘Jusr/lib/mozilla-1.6/regchrome: error While loading shared libraries: 
libxpcom.so: cannot open shared object file: No such file or directory’ 


清单 12.7 还 是 prelink 输 出 的 一 个 样本 。 在 尝试 预 链接 一 些 系统 可 执行 文件 和 库 时 ，prelink 显 得 有 些 吃 力 。 这 个 信息 在 后 面 
会 变 得 很 有 价值 ， 所 以 要 记 住 它 。 


清单 12.8 显 示 了 由 清单 12.7 中 的 strace 命 令 生成 的 输出 汇总 文件 。 


清单 12.8 


[root@localhost prelink] # cat af sum 


execvel( /usr/sbin/prelink", ["/usr/sbin/prelink", "-af"], [/* 31 vars 

2 = 者 

% time seconds usecs/call calls errors syscall 
77.87 151.249181 65 2315836 read 
11.93 -23,163231 55 421593 pread 
3.59 6.976880 63 110585 pwrite 
1.70 3.294913 17 196518 mremap 
1.02 1.977743 32 61774 lstat64 
@0.97 1 ,890977 4 个 47820 1 open 
0.72 1.406801 249 5639 vfork 
0@.35 0.677946 11 59097 close 

100.00 194,.230415 3351032 5650 total 


如 同 清单 12.8 所 示 ， 相 当 多 的 时 间 化 在 了 系统 调用 read 上 。 这 是 免不了 的 ，prelink 需 要 找 出 哪些 共享 库 被 链接 到 了 应 用 程 
序 ， 这 就 要 把 部 分 可 执行 文件 读 入 并 进行 分 析 。prelink 文 档 表 明 ， 当 生成 应 用 程序 所 需 库 的 列表 时 ， 该 程序 实际 上 是 由 动态 加 
载 器 用 特殊 模式 局 动 的， 之 后 用 通道 从 可 执行 文件 中 读 取 信息 。 这 就 是 为 什么 在 分 析 中 pread 也 很 高 的 原因 。 与 之 相反 ， 我 们 希 
望 快速 版 本 中 这 样 的 调用 会 很 少 。 


要 查看 快速 版 本 的 分 析 有 何不 同 ， 我 们 在 prelink 的 快速 模式 下 运行 同样 的 strace 命 令 。 实 现 该 操作 的 strace 命 令 如 清单 12.9 
所 泵 。 


清单 12.9 


[root@localhost prelink]# strace -C -0 aq Sum /usr/sbin/prelink -aq 


清单 12.10 显 示 了 运行 于 快速 模式 的 prelink 的 strace 分 析 信 息 。 


清单 12.10 


[root@localhost prelink] # cat aq Sum 


execve("/usr/sbin/prelink", ["/usr/sbin/prelink", "-aq"], [/* 31 vars*/]) = 0 
% time seconds usecs/call calls errors syscall 
47 .42 3.019337 70 43397 read 
26.74 1.702584 28 59822 lstat64 
10.35 0.658760 163 4041 getdents64 
5 .52 0.351326 30 11681 pread 
3.26 0.207800 21 9678 1 open 
1.99 0.126593 21 5980 10 stat64 
1.98 0 .126243 全 10155 close 
0.62 0 .039335 165 239 vfork 
100.00 6.367230 154681 250 total 


和 预期 的 一 样 ， 清 单 12.10 表 明快 速 模式 执行 了 大 量 的 lstat64 系 统 调用 。 这 些 系统 调用 返回 每 个 可 执行 文件 的 mtime 和 
ctime。prelink 在 其 缓存 中 查找 ， 并 把 保存 的 mtime 和 ctime 与 可 执行 文件 当前 的 mtime 和 ctime 进 行 比较 。 如 果 可 执行 文件 友 
生 了 变化 ， 融 对 其 局 动 prelink; 如 果 没 有 变化 ， 则 继续 下 一 个 可 执行 文件 。 实 际 上 prelink 大 量 调用 lstat64 是 个 好 现象 ， 这 就 表 
示 Pprelink 的 缓存 正在 工作 。 不 过 ，prelink 仍 然 大 量 调用 read 就 不 太 好 了 。 绥 存 应 该 记 住 已 预 链接 的 可 执行 文件 ， 但 不 应 试图 分 
析 它 们 。 我 们 必须 弄 明 日 为 什么 prelink 在 安 试 分 析 它 们 。 最 简单 的 方法 束 是 以 正常 模式 运行 strace。strace 将 显示 prelink 友 起 
的 全 部 系统 调用 ， 并 有 和 希望 澄清 哪些 文件 航 读 取 ， 以 及 解释 为 什么 read 被 调用 得 如 此 频繁 。 清 单 12.11 显 示 的 是 strace 对 快速 
prelink 使 用 的 命令 。 


清单 12.11 


[root@localhost prelink]# strace -0 aq run /usr/sbin/prelink -aq 


strace 的 输出 是 一 个 14MB 的 文本 文件 aq_run。 浏 兄 后 友 现 prelink 用 lstat64 检 查 了 许多 库 和 可 执行 文件 。 但 是 ， 它 也 揭示 
了 使 用 read () 的 几 种 不 同情 况 。 如 清单 12.12 所 示 ， 首 先 prelink 读 取 一 个 shell 脚 本 。 由 于 shell 脚 本 不 是 二 进 制 ELF 文 件 ， 因 此 
七 不 能 被 预 链 接 。 


这 些 shell 脚 本 从 最 初 的 完整 系统 prelink 开 始 运 行 起 就 没有 改变 过 ， 所 以 如 果 prelink 的 缓存 能 记录 该 文件 不 能 被 预 链接 的 事 
实 就 好 了 。 如 果 ctime 和 和 mtime 不 变 ，prelink 甚 至 都 不 会 去 尝试 读 取 它们 。 (如 果 是 上 一 个 完整 预 链接 中 的 shell 脚 本 ， 且 我 们 


还 没有 碰 过 ， 它 还 是 不 能 预 链 接 。 ) 


清单 12.12 


[root@localhost prelink] # cat aq_run 


open{( /bin/unicode stop", © RDONLY|IO LARGEFILE) = 5 
read(5, "#!/bin/sh\n# stop u", 18) = 18 
close(5s) = 0 


open("/bin/unicode start", © RDONLYIO LARGEFILE) = 5 
read(5, "#!/bin/bash\n# Enab", 18) = 18 
0 


close(5) 


其 次 ， 在 清单 12.13 中 ， 我 们 观察 到 prelink 试 图 操作 一 个 静态 链接 的 应 用 程序 。 该 应 用 程序 不 依赖 于 任何 共享 库 ， 因 此 试图 
对 它 进行 预 链接 是 没有 意义 的 。prelink 的 初始 运行 应 该 抓 住 一 个 事实 ， 即 这 个 应 用 程序 不 能 被 预 链 接 ， 并 将 该 信息 保存 到 
prelink 的 缓存 中 。 在 快速 模式 下 ， 甚 至 不 应 该 去 尝试 预 链接 这 个 二 进 制 文件 。 


清单 12.13 


[root@localhost prelink] # cat aq_run 


open("/bin/ash.static", O RDONLYIO LARGEFILE) = 5 


read(5, "\177ELF\1\1\1\0\0\0\0\0\0\0\0\0\2\0", 18) = 18 


focnt164(5, F_GETFL) = 0x8000 (flags 
O RDONLYIO LARGEFILE) 


pread(5, "\177ELF\1\1\1\0\0\0\0\0\0\0\0\0", 16, 0) 16 

pread(5, "\177ELF\1\1\1\0@\0\0\0\0\0\0\0\0° ,， 16, 0) = 16 

pread(5, "\177ELF\1\1\1\@\0\0\0\0\0\0\0\0\2\0\3\0\1\0\0\0\0\201\4".,.,., 
52, 0) = 52 

pread(5, "\177ELF\1\1\1\0\0\0\0\0\0\0\0\0\2\0\3\0\1\0\0\0\0\201\4"..., 
52, 0) = 52 


pread(5, "\1\0\0\0\0\0\0\0\0\200\4\10\0\200\4\10\320d\7\0\320d\7",.,.,， 
128, 52) = 128 


pread(5, "\@\0O\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0"..., 
920，488632) = 920 


closel(5) 


最 后 ， 在 清单 12.14 中 ， 我 们 看 到 prelink 在 读 取 一 个 二 进 制 文件 ， 该 文件 在 最 初 的 完整 系统 运行 时 存在 了 预 链接 故障 。 在 初始 
prelink 输 出 中 ,我们 看 到 了 天 于 这 个 二 进 制 文件 的 错误 。 当 开始 读 取 该 文件 时 ， 它 会 捕捉 其 他 库 ， 并 操作 其 中 的 每 一 个 库 及 其 
依赖 项 。 这 会 触 友 大 量 的 读 取 。 


清单 12.14 


[root@localhost prelink] # cat aq_run 


lstat64("/usr/lib/mozilla-1.6/regchrome", {st mode=S IFREG|0755, st size=14444, 
于 

open(" /usr/lib/mozilla-1.6/regchrome", 0O RDONLYIO LARGEFILE) = 

read(6, "\177ELF\1\1\1\0\0\0\0\0\0\0\0\0\2\0", 18) = 18 

fcnt164(6, F GETFL) = 0x8000 (flags O RDONLY|IO LARGEFILE) 

pread(6, “\177ELF\1\1\1\@\0\0\0\0\0\0\0\0", 16, 0) = 16 


open(" /usr/lib/mozilla-1.6/libldap50.so", 0 RDONLYIO LARGEFILE) = 

read(6, “\177ELF\1\1\1\0\0\0\0\0\0\0\0\0\3\0", 18) = 

close(6) = 0 

lstat64("/usr/lib/mozilla-.1.6/1libgtkxtbin.so", {st mode=S IFREGI0755, st size=14268, ...}) = 0 
open("/usr/lib/mozilla-1.6/1ibgtkxtbin.so”, 0 RDONLYIO LARGEFILE) = 

read(6, "\177ELF\1\1\1\0\0\0\0\0\0\0\0\0\3\0", 18) = 


close(6) = 0 

lstat64("/usr/lib/mozilla-1.6/1ibjsij.so", {st mode=S IFREG|0755, st size=96752, 
人 

open( /usr/lib/mozilla-1.6/1ib]jsj.s0o", 0O RDONLYIO LARGEFILE) = 

read(6， "\177ELF\1\1\1\@\0\0\0\0\0\0\0\0\3\0", 18) = 


close(6) = 0 
lstat64("/usr/lib/mozilla-1.6/mozilla-xremote-client", {st mode=S IFREG|0755, st size=12896, ...}) = 0 
lstat64("/usr/lib/mozilla-:1.6/regxpcom", {st mode=S IFREG|0755, st size=55144, ...}) = 
lstat64("/usr/lib/mozilla-1.6/1libgkgfx.so", {st mode=S IFREG|0755, st size=143012, ...}) = 0 


open(" /usr/lib/mozilla-1.6/libgkgfx.so", © RDONLYIO LARGEFILE) = 
read(6, "\177ELF\1\1\1\0\0\0\0\0\0\0\0\0\3\0", 18) = 


close(6) = 0 


对 这 种 情况 进行 优化 有 些 复杂 。 因 为 该 二 进 制 文件 不 是 真正 的 问题 (而 是 它 链接 的 库 libxpcom.so) ， 我 们 不 能 只 是 在 缓存 
中 将 该 可 执行 文件 标记 为 坏 。 但 是 ， 如 果 我 们 将 错误 库 的 名 称 libxpcom.so 与 失败 的 可 执行 文件 一 起 保存 ， 它 可 能 会 检查 该 二 进 
制 文件 与 库 的 时 | 间 ， 只 有 当 其 中 的 一 个 友 生 变化 ， 才 会 尝试 再 次 预 链接 。 


12.7 ”模拟 解决 方案 


strace 揭 示 的 信息 显示 ，prelink 花 了 大 量 的 时 间 试 图 打开 并 分 析 它 可 能 无 法 预 链接 的 二 进 制 文件 。 测 试 缓存 不 可 预 链 接 的 

二 进 制 文件 是 否 能 改善 prelink 的 性 能 的 最 好 万 法 是 修改 prelink， 将 所 有 这 些 不 可 预 链 接 的 二 进 制 文件 都 添加 a 到 prelink 的 初始 组 

存 中 。 可 惜 的 是 ， 添 加 代码 来 缓存 这 些 “ 不 可 预 链 接 的 ”二 进 制 文件 会 是 一 个 复杂 的 过 程 ， 其 中 涉及 大 量 的 有 关 prelink 应 用 程 

序 的 内 部 知识 。 更 简单 的 方法 是 模拟 缓存 ， 将 所 有 的 不 可 预 链接 的 二 进 制 文 件 蔡 换 为 已 知 的 可 预 链 接 的 二 进 制 文件 。 这 会 导致 运 

行 快 速 模 式 时 忽略 之 前 全 部 的 不 可 预 链接 二 进 制 文件 。 若 我 们 有 一 个 工作 缓存 ， 这 正 是 会 友 生 的 ， 因 此 ， 如 果 prelink 能 够 缓存 
并 忽略 不 可 预 链接 的 二 进 制 文件 ， 可 以 用 它 来 评估 我 们 将 看 到 的 性 能 提升 。 


开始 实验 ， 我 们 把 /usr/bin/ 中 的 所 有 文件 都 复制 到 sandbox 目 录 下 ， 并 在 这 个 目录 上 运行 prelink。 这 个 目录 包 售 了 正常 二 
进 制 文 件 、shell 肢 本 和 其 他 不 能 被 预 链接 的 库 。 然 后 在 sandbox 目 录 上 运行 prelink， 并 告诉 它 创 建 一 个 新 缓存 ， 而 不 是 用 系统 
缓存 。 如 清单 12.15 所 示 。 


清单 12.15 


/usr/sbin/prelink -C new cache -f sandbox/ 


接着 ， 在 清单 12.16 中 ， 我 们 对 快速 模式 的 prelink 运 行 了 多 久 进行 计时 。 需 要 多 次 运行 ， 直 到 给 出 的 结果 达到 一 致 。 (第 一 
次 运行 是 为 随后 的 每 一 次 运行 进行 缓存 热身 。) 清单 12.16 中 的 基线 时 间 为 0.983 秒 。 为 了 显示 我 们 的 优化 (改善 缓存 ) 调查 是 值 
得 的 ， 必 须 击败 这 个 时 间 。 


清单 12.16 


time /usr/sbin/prelink -C new _ cache -q Sandbox/ 
real 0m0 .983s 
User Om0 .597S 
Sys 0m0 .386s 


然后 ， 在 清单 12.17 中 ， 我 们 在 这 个 prelink 命 令 上 运行 strace， 记 录 prelink 在 sandbox 目 录 中 打开 了 哪些 文件 。 


清单 12.17 


strace -0 strace prelink_ sandbox /usr/sbin/prelink -C new cache -q 
Sandbox/ 


接着 我 们 创建 一 个 新 目录 sandbox2， 我们 再 次 将 /usr/bin/ 中 的 所 有 二 进 制 文件 都 复制 到 这 个 目录 下 。 但 是 ,我 们 用 一 个 已 
知 的 好 的 、 能 被 预 链接 的 二 进 制 文件 履 匡 了 在 之 前 strace 输 出 中 prelink “打开 的 ”所 有 文件 。 我 们 把 这 个 文件 复制 到 全 部 的 有 
问题 的 二 进 制 文件 ， 而 不 仅仅 是 删除 它们 ， 所 以 两 个 sandbox 所 全 的 文件 数 相 同 。 建 立 第 二 个 sandbox 后 ， 我 们 用 清单 12.18 中 
的 命令 在 这 个 新 目录 上 运行 完整 版 prelink。 


清单 12.18 
[root@localhost prelink]#/usr/sbin/prelink -C new cache2 -f sandbox2/ 


最 后 ， 对 快速 模式 的 运行 计时 ， 并 将 其 与 我 们 的 基线 进行 比较 。 


同样 的 ， 这 也 需要 运行 多 次 ， 第 一 次 运行 也 是 缓存 热身 。 清 单 12.19 中 ， 我 们 可 以 看 到 我 们 所 做 的 ， 事实 上 ， 能 看 到 性 能 的 
提升 。 执 行 prelink 的 时 间 从 约 0.98 秒 下 降 到 约 0.29 秒 。 


清单 12.19 


[root@localhost prelink]# time /usr/sbin/prelink -C new cache2 -q 
sandbox2/ 

real m0 .2928 
USer OOmo.158S 
SYS om0.134s 


接着 ， 我 们 比较 两 次 不 同 运 行 的 strace 输 出 ， 确 认 进 行 读 取 的 次 数 ， 实 际 上 ， 这 个 次 数 减 少 了 。 清 单 12.20 显 示 了 sandbox 
的 strace 汇 总 信息 ， 其 中 包含 了 prelink 不 能 链接 的 二 进 制 文件 。 


清单 12.20 
execve("/usr/sbin/prelink", [{["/usr/sbin/prelink", "-C", "new cache", 
"-q",， "Sandbox/"], [/* 20 vars */]) = 0 
% time seconds usecs/call calls errors syscall 
62 .06 0.436563 48 9133 read 
13.87 0.097551 15 6504 lstat64 
6.20 0.043625 18 2363 10 stat64 
5.62 0.039543 21 1922 pread 
3.93 0.027671 374 74 vfork 
1.78 0.012515 9 1423 getcwd 
0.011594 644 18 getdentS64 
LE 0 .009473 15 623 1 open 
0.90 0.006300 8 770 close 
100 .00 0.703400 24028 85 total 


清单 12.21 显 示 了 sandbox 的 strace 汇 总 信息 ， 其 中 prelink 可 以 链接 所 有 的 二 进 制 文件 。 


清单 12.21 

execve( /usr/sbin/prelink", ["/usr/sbin/prelink", "-C", "new cache2", 

"-q",， "Sandbox2/"], [/* 20 vars */]) = 0 

% time seconds usecs/call calls errors syscall 
54.29 0.088766 15 5795 lstat64 

26 .53 0.043378 19 2259 10 stat64 
8.46 0.013833 8 1833 getcwd 
G9 0.011363 631 18 getdents64 
2.50 0.004095 2048 2 Write 
0.37 0.000611 611 1 rename 
0 .26 0 .000426 39 11 1 open 

100 .00 0.163515 9973 11 total 


如 同 你 从 清单 12.20 和 清单 12.21 的 不 同 中 上 友 现 的 一 样 ， 我 们 已 经 显 着 减少 了 目录 中 读 取 的 次 数 。 同 时 ， 我 们 还 已 经 大 大 减少 


了 预 链接 该 目录 所 需 的 时 间 。 缓 仔 和 回避 不 可 预 链接 的 可 执行 文件 看 起 来 是 一 种 有 前 途 的 优化 万 法 。 


12.8 ”报告 问题 


我 们 已 经 友 现 了 问题 ， 并 在 系统 软件 相当 低 的 层次 上 找到 了 可 能 的 解决 万 案 ， 因 此 ， 与 作者 一 起 解决 这 个 问题 是 一 个 好 主 
意 。 我 们 至 少 要 提交 一 个 bug 报 告 以 便 作 者 知道 这 个 问题 的 存在 。 提 交 用 于 友 现 问题 的 测试 也 有 助 于 作者 重 现 问 题 并 增加 修复 问 
题 的 希望 。 本 例 中 ， 我 们 将 向 Red Hat 的 bugzilla (bugzilla.redhat.com) 奶 蹊 系统 添加 一 个 bug 报 告 。 (大 多 数 其 他 发 行 版 也 
有 相似 的 bug 追 路 系统 。) 我 们 的 bug 报 告 摘 述 了 我 们 遇 到 的 问题 以 及 友 现 的 可 能 的 解决 方案 。 


在 bugzila 中 ， 我 们 首 移 搜索 prelink 的 bug 报 告 ， 看 看 是 否 已 经 有 其 他 人 提交 了 天 于 该 问题 的 报告 。 本 例 中 ， 没 有 人 提交 相 
天 报告 ， 因 此 我 们 输入 如 清单 12.22 所 示 的 bug 报 告 ， 等 待 作者 或 维护 者 的 回复 ， 或 者 问题 修复 。 


清单 12.22 


From Bugzilla Helper : 


User -Agent : Mozilla/5.0 (X11; U; Linux i1686; en-USi rv:1.6) 
Gecko/20040510 


Description of problem: 


When running in quick mode, prelink does not cache the fact that some 
binaries can not be prelinked. AS a result it rescans them every time ， 
even if prelink is running in quick mode. This causes the disk to grind 
and dramatically slows down the whole systenm. 


There are 3 types of executables that it retries during quick mode : 
1) Static Binaries 

2) Shell Scripts 

3) Binaries that rely on unprelinkable binaries. (Such as OpenGL) 


For 1&2, it would be nice if prelink cached that fact that these 
executables can not be prelinked, and then in quick mode check their 
ctime & mtime, and don't even try to read them if it already knows that 
they can't be prelinked. 


For 3, it would be nice if prelink recorded which libraries are causing 
the prelink to fail (Take the OpenGL case for example), and record that 
with the binary in the cache,. If that library or the binary S ctime & 
mtime haven't changed, then don't even try to prelink it. If things have 
really changed, it will be picked up on the next run of "prelink -af". 


Version-Release number of selected component {if applicable): 


prelink-0.3.2-1 


How reproducible.: 
Always 
Steps to Reproduce: 


1.Run prelink -a -f on a directory with shell scripts & other executables 
that can not be prelinked. 


2, Strace "prelink -a -gq", and look for the "reads". 


3. Examine strace's output, and you'll see all of the reads that take 
place. 


Actual Results: Shell script: 


open("/bin/unicode stop", O RDONLYIO LARGEFILE) = 5 
read(5, "#!/bin/sh\n# stop u", 18) = 18 
close(5) = 0 


Static Binary: 
open({"/bin/ash.static", © RDONLYIO LARGEFILE) = 5 
read(5, "\177ELF\1\1\1\0\0\0\0\0\0\0\0\0\2\0", 18) = 18 


fcnt164(5, F_GETFL) = 0x8000 (flags 
0 RDONLY|O LARGEFILE) 


pread(5, “\177ELF\1\1\1\@\0\0\0\0\0\0\0\0", 16, 0) = 16 

pread(5, “\177ELF\1\1\1\0\0\0\0\0\0\0\0\0", 16, 0) 16 

pread(5, “\177ELF\1\1\1\0\0\0\0\0\0\0\0\0\2\0\3\0\1\0\0\0\0\201\4"..., 
52, 0) = 52 

pread(5, "\177ELF\1\1\1\0\0\0\0\0\0\0\0\0\2\0\3\0\1\0\0\0\0\201\4"..., 
52, 0) = 52 

pread(5, “"\1\@\0\0\0\0\0\0\0\200\4\10\0\200\4\10\320d\7\0\320d\7".,..,， 
128，52 ) 128 


pread(5, "\Q@\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0"..., 
920，488632) = 920 


Close(5) 


1 


Un-prelinkable executable: 

lstat64({" /usr/lib/mozilla-1.6/regchrome", {st mode=S IFREG|0755, 
st size=14444， 

...})=0 

open("/usr/lib/mozilla-1.6/regchrome", © RDONLYIO _ LARGEFILE) = 6 
read(6, "\177ELF\1\1\1\0\0\0\0\0\0\0\0\0\2\0", 18) = 18 


fcnt164(6，F_GETFL) = 0Xx8000 (flags 
0 RDONLYIO LARGEFILE) 


pread(6，"\177ELF\1V1V1VOVOVOVOVOVOVOVOAO ，16，0) = 16 


open("/usr/lib/mozilla-.1.6/libldap56.s0o", 0O RDONLYIO LARGEFILE) = 6 
read(6, "\177ELF\1\1\1\0\0\0\0\0\0\0\0\0\3\0",， 18) = 18 

closel(6) = @ 
lstat64("/usr/lib/mozilla-1.6/l]ibgtkxtbin.so", {st mode=Ss IFREG|0755, 
st Size=14268, ...}) = 0 

open("/usr/lib/mozilla-1.6/libgtkxtbin.so", 0O RDONLYIO LARGEFILE) = 6 
read(6, "\177ELF\1\1\1\@0\0\0\0\0\0\0\0\0\3\0 ，18) = 18 

close(6) = @ 
lstat64("/usr/lib/mozilla-1.6/1ibjs]j.so0", {st mode=S IFREG|0735S, 

st size=967952, 

.0 }) =0 

open("/usr/lib/mozilla-1.6/1ibjsj.s0", © RDONLYIO LARGEFILE) = 6 
read(6, "\177ELF\1\1\1\@\0\0\0\0\0\0\0\0\3\0" ，18) = 18 


close (6) = 0 
lstat64("/usr/lib/mozilla-1.6/mozilla-xremote-client", 

{st mode=S IFREG|I0755, st size=12896, ...}) = 0 
lstat64("/usr/lib/mozilla-1.6/regxpcom", {st mode=S IFREGI@7S55, 

st size=55144, ...}) = 0 
lstat64("/usr/lib/mozilla-1.6/libgkgfx.so", {st mode=S IFREGI0O755 ， 
st size=143012, ...}) = 0 


open("/usr/lib/mozilla-1.6/1libgkgfx.s0o", O RDONLYIO LARGEFILE) = 6 
read(6, "\177ELF\1\1\1\@0\0\0\0\0\0\0\0\0\3\0", 18) = 18 
close(6) = 人 @ 


Expected Results: All of these should have been simple lstat checks 
rather than actual reads of the executables,. 


Additional info: 


即便 作者 或 维护 者 从 未 回复 ， 把 问题 输入 到 bug 追 路 数据 库 仍 旧 是 个 好 主意 。 间 题 及 其 可 能 的 解决 方案 将 被 记录 下 来 ， 某 些 
热心 的 程序 员 也 许 会 继续 探索 并 修复 该 问题 。 


12.9 测试 解决 方案 


由 于 我 们 还 没有 解决 prelink 代 码 中 的 问题 ， 而 是 提交 了 bug 报 告 ， 因 此 我 们 不 能 立即 以 原始 基线 为 参照 测试 被 修复 的 
prelink 时 | 间 。 不 过 ， 如 果 作 者 或 维护 者 能 够 实现 提交 的 变化 ， 或 者 甚至 是 找到 了 更 好 的 方法 进行 优化 ， 我 们 将 能 在 更 新 版 本 出 
现时 检查 其 性 能 。 


12.10 ”本 童 小 结 


本 草 中 ， 我 们 从 一 个 表现 不 佳 的 系统 开始 ， 用 性 能 工具 找 出 哪个 子 系统 被 过 度 使 用 (如 vmstat 所 示 的 磁盘 子 系统 ) ， 以 及 
哪个 组 件 导致 了 问题 (prelink) 。 接 着 调查 prelink 应 用 程序 确定 了 它 为 什么 有 这 么 多 的 磁盘 Il/O 〇 (用 strace) 。 我 们 在 prelink 
的 文档 中 友 现 缓存 模式 可 以 大 大 减少 磁盘 |/O。 研 究 了 缓存 模式 的 性 能 之 后 ， 我 们 友 现 它 消 除 的 磁盘 Il/O 并 不 如 预期 那样 多 ， 其 
原因 是 它 试图 对 不 能 预 链接 的 文件 进行 预 链接 。 之 后 ， 我 们 模拟 了 一 个 缓存 ， 避 免 对 不 可 预 链接 的 文件 尝试 进行 预 链 接 ， 以 此 证 
明 它 明显 减少 了 磁盘 1/O 的 数量 以 及 快速 模式 下 prelink 的 运行 时 间 。 最 后 ,我们 向 prelink 的 作者 提交 了 bug 报 告 ， 希 望 该 作者 能 
意识 到 问题 并 修复 它 。 本 章 是 Linux 性 能 追踪 的 最 后 一 章 。 

在 下 一 章 ， 也 就 是 本 书 最 后 一 章 ， 我 们 将 从 更 高 层次 来 看 看 Linux 的 性 能 和 性 能 工具 。 我 们 将 回顾 本 书 介 绍 的 方法 和 工具 ， 
并 考虑 一 些 已 成 熟 并 可 改进 的 Linux 性 能 工具 领域 。 


本 章 是 对 一 些 事情 的 思索 ,包括 : Linux 性 能 工具 的 当前 状态 ， 哪 些 仍 需要 改进 以 及 为 什么 Linux 是 当前 一 个 相当 不 错 的 进行 
性 能 调查 的 平台 。 


阅读 本 章 后 ， 你 将 能 够 : 
` 了 解 Linux 性 能 工具 箱 的 漏洞 ， 以 及 一 些 理想 的 解决 方案 。 


:了解 Linux 作 为 性 能 调查 平台 的 优势 。 


13.1 ”Linux 工 具 的 现状 
本 书 介绍 了 目前 的 Linux 性 能 工具 ， 以 及 怎样 单独 和 一 起 使 用 它们 来 解决 性 能 问题 。 就 Linux 的 各 方面 而 言 ， 这 些 性 能 工具 一 


直人 在 友 展 ， 因 此 进行 问题 调查 时 ， 不 断 查 看 性 能 工具 的 帮助 页 或 文档 以 确定 其 用 法 是 否 友 生变 化 是 一 个 好 习惯 。 性 能 工具 的 基本 
功能 很 少 改变 ,但 党 党 会 增加 一 些 新 功能 ， 因 此 ， 对 特定 工具 查看 其 最 新 发 布 的 说 明和 文档 是 很 有 帮助 的 。 


13.2 Linux 还 需要 什么 梓 的 工具 


当 我 们 了 解 一 些 Linux 性 能 工具 时 ， 我 们 看 到 了 整体 性 能 调查 功能 中 的 一 些 漏洞 。 有 些 漏洞 是 由 于 内 核 限 制造 成 的 ， 有 些 漏 


洞 则 仅仅 是 由 于 没 人 编写 一 个 工具 来 解决 这 个 问题 。 但 是 ， 填 补 这 些 漏洞 会 让 调查 和 修复 Linux 性 能 问题 区 得 容易 得 多 。 


13.2.1 漏 疯 1 : 性 能 统计 信息 分 部 


一 个 明显 的 漏洞 是 Linux 没 有 一 个 单一 的 工具 为 特定 进程 提供 所 有 的 相关 性 能 统计 信息 。 在 原来 的 UNIX 中 ，ps 可 以 填补 这 
一 漏洞 ， 在 Linux 中 它 也 很 不 错 ， 但 却 不 包含 其 他 两 业 UNIX 实 现 提 供 的 全 部 统计 信息 。 有 些 统计 信息 对 追 味 性 能 问题 是 非常 有 价 
值 的 ， 比 如 inblk ( 读 入 的 I/O 块 ) 和 oublk ( 写 出 的 MO 块 ) ， 它 们 表示 的 是 一 个 进程 使 用 的 磁盘 |/O 量 ; vcsw (自愿 的 上 下 文 切 
换 ) 和 invcsw ( 非 自愿 的 上 下 文 切 损 ) ， 它 们 通常 表示 一 个 进程 进行 CPU 上 下 文 切 换 ; msgrcv (从 通道 和 套 接 字 接收 的 消息 ) 
和 msgsnd (从 通道 和 套 接 字 友 尖 的 消息 ) ， 它 们 显示 的 是 一 个 应 用 程序 使 用 的 网 络 和 通道 |/O 量 。 一 个 理想 工具 应 加 上 所 有 这 
些 统计 数据 ， 并 将 运 今 为 止 提 到 的 许多 性 能 工具 (包括 oprofile、top、ps、strace、ltrace 和 /proc 文 件 系统 ) 的 功能 组 合 到 一 
个 单一 的 应 用 程序 中 。 用 户 应 能 在 进程 上 使 用 这 个 单一 的 应 用 程序 ， 抽 取 所 有 重要 的 性 能 统计 数据 。 每 个 统计 数据 都 能 实时 更 
新 ， 使 得 用 户 可 以 在 运行 时 调试 应 用 程序 。 它 会 将 某 个 调查 方面 的 信息 分 组 统计 a 到 相同 位 置 。 


举 个 例子 ， 如 果 我 正在 调查 内 存 使 用 情况 ， 它 束 应 该 显示 a 到底 堆 、 栈 、 库 、 共 享 内 存 以 及 mmap 使 用 了 多 少 内 存 。 假 如 某 
个 特定 内 存 区 域 大 大 超过 了 我 的 预期 ， 我 可 以 继续 深入 调查 ， 而 这 个 性 能 工具 可 以 告诉 我 究竟 是 哪 些 消 数 分 配 了 这 些 内 存 。 如 果 
我 正在 调查 CPU 的 使 用 情况 ， 我 会 从 忌 体 统计 数据 开始 ， 诸 如 系统 时 间 和 用 尸 时 间 各 是 多 少 ， 某 个 特定 进程 有 多 少 个 系统 调 
用 ， 之 后 我 将 能 够 更 加 深入 到 系统 时 间或 者 是 用 户 时 间 ， 看 看 到 底 是 哪些 国 数 消耗 了 这 些 时 间 以 及 它们 家 调用 的 频率 。 一 个 遍 明 
的 shell 脚 本 ， 利 用 合适 的 已 仓 在 的 工具 来 收集 并 整合 信息 ， 多 化 蔡 时 间 也 能 实现 其 中 的 部 分 功能 ， 但 要 完全 实现 这 一 愿 媒 ， 残 
有 必要 让 一 些 工具 的 行为 友 生 根本 性 的 变化 。 


13.2.2 洱 同 2: 没有 可 徘 并 完整 的 凋 用 树 


接 下 来 的 性 能 工具 漏洞 是 目前 还 没有 办 法 提供 应 用 程序 执行 的 完整 的 调用 树 。Linux 有 几 个 不 完整 的 实现 。oprofile 提 供 了 
调用 树 的 生成 ， 但 它 是 基于 采样 的 ， 因 此 无 法 捕捉 生成 的 每 一 个 调用 。gprof 文 持 调用 树 ， 但 它 无 法 分 析 整 个 应 用 程序 ， 除 非 是 
寺 定 进程 调用 的 每 一 个 库 编译 时 选择 支持 分 析 。 最 有 前 途 的 工具 valgrind 有 一 个 界面 称 为 calltree， 详 述 参 见 5.2.5 节 ， 它 的 目标 
是 提供 一 个 完全 准确 的 调用 树 。 但 是 ， 它 还 在 友 展 中 ， 且 无 法 适用 于 所 有 的 二 进 制 文件 。 


调用 树 工 具 是 很 有 用 的 ， 即 便 是 当 它 运行 时 会 明显 降低 应 用 程序 的 性 能 。 单 见 的 使 用 方法 是 : 先 运 行 oprofile 找 出 应 用 程序 
中 的 哪些 函数 是 “ 热 上 号 ”， 然 后 运行 调用 树 程序 明确 为 什么 应 用 程序 要 调用 它们 。oprofile 那 一 步 将 提供 全 速 运行 时 应 用 程序 皂 
须 的 准确 视图 ， 而 调用 树 ， 即 使 它 运 行 缓慢 ， 也 会 显示 应 用 程序 是 如 何 调 用 那些 消 数 以 及 调用 的 原因 。 唯 一 的 问题 是 ， 如 果 程 序 
的 行为 是 时 间 敏 感 的 ， 运 行 缓慢 将 会 导致 其 行为 友 生 变化 〈 比 如 那些 依赖 于 网 络 或 磁盘 MO 的 ) 。 不 过 ， 现 有 的 许多 问题 不 是 时 
间 敏 感 的 ， 用 准确 的 调用 树 机 制 修复 它们 还 有 很 长 的 路 要 走 。 


13.2.3” 漏 ) 同 3: MO 的 归 因 


最 后 ， 当 前 Linux 中 最 大 的 漏洞 是 |/O 归 因 。 现 在 ，Linux 没 有 提供 好 的 万 法 来 追踪 哪些 应 用 程序 使 用 了 最 多 的 磁盘 或 者 甚至 
是 网 络 /O。 


一 个 理想 的 工具 应 实时 显示 特定 进程 使 用 的 磁盘 或 网 络 MO 的 输入 输出 字 节 数 。 该 工具 将 显示 统计 数据 ， 如 原始 市 完 ， 以 及 
子 系统 能 够 占用 的 原始 MO 上 百分比。 此 外 ， 用 户 还 要 能 分 解 统计 数据 ， 以 便 他 们 可 以 看 到 每 一 个 单独 网 络 和 磁盘 设备 都 相同 的 统 


计 信 息 。 


13.3 Linux 的 性 能 调 优 


即使 存在 上 述 漏洞 ，Linux 仍 然 是 一 个 发 现 并 修复 性 能 问题 的 理想 环境 。 它 是 由 开发 人 员 编 写 给 开发 人 员 的 ， 其 结果 就 是 ， 
它 对 性 能 调查 者 非常 友好 。Linux 有 几 个 特点 使 它 成 为 追 趴 性 能 问题 的 优秀 平台 。 


13.3.1 可 用 的 源 代 码 


首先 ， 开 友人 员 可 以 访问 到 整个 系统 的 大 多 数 (如 果 不 是 全 部 ) 的 源 代 码 。 如 果 问 题 看 上 去 不 在 你 的 代码 中 ， 那 么 在 追 蹊 问 
题 时 这 一 后 束 相当 有 价值 。 对 商用 UNIX 或 其 他 无 法 获得 源 代码 的 操作 系统 ， 你 可 能 需要 等 待 供应 商 对 问题 进行 调查 ， 如 果 的 确 
是 他 的 问题 ， 你 也 无 法 保证 他 会 修复 上 问题。 但是， 对 Linux 而 言 ， 你 可 以 自己 调查 问题 ， 弄 清楚 为 什么 性 能 问题 会 友 生 。 如 果 问 
题 不 在 你 的 应 用 程序 中 ， 你 可 以 修复 它 并 提交 补丁 ， 或 是 直接 运行 一 个 已 修复 的 版 本 。 如 果 在 阅读 Linux 源 代码 后 ， 你 意识 到 是 
你 的 应 用 程序 有 问题 ， 那 么 你 也 可 以 修复 问题 。 不 管 是 哪 种 情况 ， 你 都 可 以 立即 进行 修复 ， 不 会 因 等 竺 别人 而 卡 充 。 


13.3.2 ”容易 联系 开 友 者 


Linux 的 第 二 个 优点 是 : 找到 并 联系 特定 应 用 程序 或 库 的 开 友 人 员 相 对 容易 。 大 多 数 其 他 专 有 操作 系统 很 难说 清楚 哪个 工程 
师 负责 哪个 代码 片段 ， 相 比 乙 下，Linux 要 更 加 开放 。 通 冲 ， 特 定 软件 片段 开 友 人员 的 名 字 和 联系 方式 都 放 人 在 软件 包 中 。 访 问 开 
发 人 员 使 你 可 以 咨询 一 些 问题 ,包括 : 特定 代码 段 的 行为 ， 运 行 缓慢 的 代码 是 干什么 用 的 ， 以 及 给 定 的 优化 执行 起 来 是 否 安全 。 
开 友 人 员 一 般 会 很 乐意 融 此 提供 帮助 。 


13.3.3 Linux 还 年 轻 


Linux 是 性 能 优化 的 优秀 平台 的 最 后 一 个 理由 是 它 还 未 成 融 ， 功 能 仍 在 开 友 中 ，Linux 还 有 很 多 机 会 友 现 并 修复 简单 的 性 能 
陷 。 大 多 数 开 有 友人 员 关注 于 添加 功能 ， 因 此 性 能 问题 会 家 搁置 一 边 不 去 解决 。 一 个 雄心 勃勃 的 性 能 调查 人 员 可 以 在 不 断 开发 的 
Linux 中 友 现 并 修复 很 多 小 的 性 能 问题 。 这 些小 修复 超越 了 单个 个 体 ， 惠 及 整个 Linux 团 体 。 


13.4 ”本 童 小 结 


本 草 我 们 研究 了 Linux 性 能 工具 几 个 集中 存在 缺点 的 方面 ， 并 提出 了 一 些 理想 的 解决 方案。 我 们 还 讨论 了 为 什么 Linux 是 一 个 
尝试 进行 性 能 调查 和 优化 的 好 平台 。 


变 Linux 获 得 更 好 的 性 能 ， 这 取决 于 你 一 一 读者 。 提 升 Linux 性 能 ， 改 进 Linux 性 能 工具 的 机 会 比比 省 是 。 如 果 你 友 现 了 困 


扰 你 的 性 能 问题 ， 修 复 它 ， 或 者 同 开 友人 员 报 告 ， 和 他 们 一 起 修复 它 。 无 论 哪 种 万 式 ， 都 不 会 再 有 人 被 这 个 问题 卡 住 ， 整 个 


Linux 团 体 都 会 受益 。 


附录 A ”性 能 工具 的 位 置 


本 书 描述 的 性 能 工具 来 源 于 Internet 上 许多 不 同 的 位 置 。 玉 运 的 是 ， 大 多 数 主 要 友 行 版 都 把 它们 放 在 一 起 ， 包 含 在 了 其 友 行 
版 的 当前 版 本 中 。 表 A-1 摘 述 了 全 部 工具 ， 提 供 了 指向 其 原始 源 位 置 的 地 址 ， 并 注 明 它们 是 人 否 包含 在 以 下 上 友 行 版 中 : Fedora 
Core 2 (FC2) 、Red Hat Enterprise Linux (EL3) 和 SUSE 9.1 (99.1) 。 


表 A-1 性 能 工具 的 位 置 


五 中 发 行 版 本 源 网 址 
bash http://cnswww.cns.cwru.edu/-chet/bash/bashtop.html 
etherape http:i/etherape.sourceforge.net/ 
ethtool http://sourceforge.net/projects/gkernel/ 
free procps 包 的 一 部 分 : http://procps.sourceforge.net/ 
gcc http://gcc.gnu.org/ 
gdb http://sources.redhat.com/gtb/ 
gkrellm http://web.wt.net-/billw/egkrellm/gkrellm.html 


加 FC2, EL3, S9.] GNOME 项 目的 一 部 人 分， 获取 地 址 :ftp:wftp.gnome. 
gnome—system—monitor | 
orgipub/enome/sources/gnome.system-monitor; 


gnumeric FC2, EL3, 89.1 http://Wwww.gnome.org/projects/gnumeric/ 
gprof FC2, EL3, $9.1 binutil1s 包 的 一 部 分 : http://sources.redhat.com/binutils 


i 本 FC2, EL3, S9.1 net-tool1s 的 一 部 分 : http://www.tazenda.demon.co.uk/ 
ifconfig 
phil/net-tools/ 


ee FC2, S$9.1 sysstat 和 包 的 一 部 分 ; http://perso.wanadoo.fr/sebastien. 
iosta 
godard/ 


ip FC2, EL3, S9.1 iproute 包 的 一 部 分 : ftp:WMftp.inr.ac.ru/ip-routing 


( 续 ) 


工 具 发 行 版 本 源 网 址 

| FC2, EL3, S9.1 uti1-1linux 包 的 一 部 分 : ftp.win.tue.nl:/pub/linux- 

Eu local/mutils/util-linux 

iptraf http://cebu.mozcom.com/riker/iptraf 

本 kdesdk (v3.2 或 更 高 版 本 ) 包 的 一 部 分 : http:/ 
kcachegrind.sourceforge.net/cgi-bin/show.cgi 

1 GNU 1ibc 的 一 部 分 :http:Wwww.gnu.org/software/ 
libc/libc.html 

1d (Linux 加 载 需 ) binutils 的 一 部 分 : http://sources.redhat.com/binutils 

1sof ftp://lsof.itap.purdue.edu/pub/tools/unix/lsof 

1trace http://packages.debian.org/unstable/utils/ltrace.html 

mempr of http://www.gnome.org/projects/memprof 

Re net-tools 的 一 部 分 : http:Wwww.tazenda.demon.co.UK/ 
phil/net-tools/ 

rer sysstat 包 的 一 部 分 : http://perso.wanadoo.fr/ 
sebastien.godard/ 

ed net-tools 的 一 部 分 : http://www.tazenda.demon.co.uk/ 
phil/net-tools/ 

objdump binutils 的 一 部 分 : http://sources.redhat.com/binutils 

oprofile http://oprofile.sourceforge.net/ 

proc filesystem EE 文件 系统 是 Linux 内 核 的 组 成 部 分 ， 包 合 在 几 于 
所 有 的 发 行 版 中 

procinfo ftp://ftp.cistron.nl/pub/people/svm 

ps procps 包 的 一 部 分 : http://procps.sourceforge.net/ 

a sysstat 包 的 一 部 分 : http://perso.wanadoo.fr/sebastien. 
goatd/ 

et uti1-1inux 包 的 一 部 分 : http:/www.kernel.org/pub/ 
linux/utils/util-linux/ 

slabtop procps 包 的 一 部 分 : http://procps.sourceforge.net/ 

strace http://sourceforge.net/projects/strace/ 

tee coreutils 包 的 一 部 分 : ftp://alpha.gnu.org/gnu/coreutils/ 

time http://www.gnu.org/directory/GNU/time.html 

top procps 包 的 一 部 分 : http://procps.sourceforge.net/ 

valgrind http://valgrind.kde.org/ 

vmstat procps 包 的 一 部 分 : http://procps.sourceforge.net/ 


虽然 没有 在 表 中 出 现 ， 但 是 Debian (测试 ) 包含 了 上 面 列 出 的 ， 除 procinfo 之 外 的 全 部 工具 。 


附录 B 安 斤 oprofile 


尽管 系统 剖析 器 oprofile 是 一 个 强大 的 性 能 工具 ， 但 它 的 安 疼 / 使 用 有 些 难度 。 本 附录 摘 述 了 在 Fedora Core 2 (FC2) 、 


Red Hat Enterprise Linux (EL3) 和 SUSE 9.1 (S9.1) 上 安装 oprofile 的 一 些 问 题 。 


B.1 Fedora Core 2 (FC2) 


对 FC2， 应 该 使 用 Red Hat 为 oprofile 提 供 的 软件 包 ， 而 不 是 从 oprofile 网 站 下 载 的 那些 。 单 处 理 器 内 核 不 提供 必要 的 
oprofile 驱 动 程序 。Red Hat 在 内 核 的 mp 版 本 中 打包 了 必要 的 oprofile 内 核 模块 。 如 果 想 要 运行 oprofile， 即 使 你 是 在 单 处 理 器 
机 器 上 运行 ， 也 必须 使 用 smp 内 核 。 


B.2 Enterprise Linux (EL3) 


同样 的 ， 对 EL3，Red Hat 也 为 oprofile 提 供 了 使 用 的 软件 包 ， 而 不 是 从 oprofile 网 站 下 载 的 那些 。 单 处 理 器 内 核 不 提供 必要 
的 oprofile 驱 动 程序 。Red Hat 用 内 核 的 ;mp 或 hugemem 版 本 打包 了 必要 的 oprofile 内 核 模 块 。 如 果 想 要 运行 oprofile， 即 使 你 
是 在 单 处 理 器 机 器 上 运行 ， 也 必须 使 用 smp 或 hugemem 内 核 。 


在 EL3 中 使 用 oprofile 的 更 多 详细 信息 请 参见 http://www.redhat.com/docs/manuals/enterprise/RHTL-3- 


Manual/sysadmin-guide/ch-oprofile.html, 


B.3 SUSE 9.1 


对 SUSE 9.1，SUSE 为 oprofile 提 供 了 使 用 的 软件 包 ， 而 不 是 从 oprofile 网 站 下 载 的 那些 。SUSE 内 核 的 全 部 版 本 (default、 
smp 和 bigsmp) 都 提供 对 oprofile 的 支持 ， 因 此 提供 的 任何 内 核 都 有 效 。 


